Geometric Deep Learning
Grids, Groups, Graphs,
Geodesics, and Gauges

Michael M. Bronstein111Imperial College London / USI IDSIA / Twitter, Joan Bruna222New York University, Taco Cohen333Qualcomm AI Research. Qualcomm AI Research is an initiative of Qualcomm Technologies, Inc., Petar Veličković444DeepMind

Preface

Euclid의 Elements, word555 [Uncaptioned image] According to a popular belief, the Erlangen Programme was delivered in Klein’s inaugural address in October 1872. Klein indeed gave such a talk (though on December 7 of the same year), but it was for a non-mathematical audience and concerned primarily his ideas of mathematical education. What is now called the ‘Erlangen Programme’ was actually a research prospectus brochure Vergleichende Betrachtungen über neuere geometrische Forschungen (“A comparative review of recent researches in geometry”) he prepared as part of his professor appointment. See Tobies (2019). ‘geometry’는 다른 유형의 Geometry가 존재하지 않았기 때문에 Euclidean geometry과 동의어였다. 유클리드의 독점은 19세기에 끝났으며, 로바체베스키, 볼라이, 가우스, 리만에 의해 구성된 비유클리드 기하학의 예를 들 수 있다. 그 세기가 끝날 무렵, 수학자들과 철학자들은 이러한 기하학의 타당성과 관계 그리고 "하나의 진정한 기하학"의 본질에 대해 토론하면서, 이 연구들은 서로 다른 분야로 갈라졌다.

이 피클에서 벗어나는 길은 1872년에 작은 바이에른 엘랑겐 대학의 교수로 임명된 젊은 수학자 펠릭스 클라인(Felix Klein)에 의해 보여졌습니다. 수학 연보를 Erlangen Programme, Klein은 기하학의 invariants, 즉, 기하학의 symmetries이라고 하는 변형의 일부 클래스에서 속성이 변경되지 않은 연구로 접근 기하학을 제안했다. 이 접근법은 당시 알려진 다양한 기하학이 군 이론의 언어를 사용하여 공식화된 대칭 변환의 적절한 선택에 의해 정의될 수 있음을 보여줌으로써 명확성을 만들었다. 예를 들어, 유클리드 기하학은 길이와 각도에 관한 것인데, 이러한 성질은 유클리드 변환(회전과 변환) 그룹에 의해 보존되는 반면, 아핀 기하학은 아핀 변환 그룹에 의해 보존되는 평행성을 연구하기 때문이다. 유클리드 그룹은 아핀 그룹의 하위 그룹이고, 이는 차례로 사영 변환 그룹의 하위 그룹이기 때문에 이러한 기하학 사이의 관계는 각 그룹을 고려할 때 즉시 명백하다.

기하학에 대한 Erlangen 프로그램의 영향은 매우 심오했다. 게다가, 그것은 다른 분야, 특히 물리학으로 유출되었는데, 여기서 대칭 원리는 대칭의 첫 번째 원리로부터 보존 법칙을 도출할 수 있게 했고(Noether의 정리로 알려진 놀라운 결과), 심지어 기본 입자들을 대칭군의 환원 불가능한 표현으로 분류하는 것을 가능하게 했다. Category theory은 현재 순수 수학에 널리 퍼져 있으며, 창작자인 Samuel Eilenber와 Saunders Mac Lane의 말에서 "Klein Erlangen Programme의 연속으로 간주될 수 있습니다. 666See Marquis (2009).

필기 당시 딥 러닝 분야의 상태는 19세기 기하학 분야를 다소 연상시킨다. 다양한 종류의 데이터에 대한 신경망 아키텍처의 진정한 동물원은 있지만 원칙을 통합하는 것은 거의 없다. 과거와 마찬가지로 이것은 다양한 방법 간의 관계를 이해하기 어렵게 만들고, 필연적으로 다른 응용 영역에서 동일한 개념의 재발명과 재브랜딩을 초래한다. 그 분야를 배우려는 초보자에게, 엄청난 양의 중복된 아이디어를 흡수하는 것은 진정한 악몽이다.

이 텍스트에서 우리는 이 분야의 시스템화를 얻고 '점 연결'을 궁극적인 목표로 딥 러닝의 영역에 에를랑겐 프로그램 마인드를 적용하려는 겸손한 시도를 한다. 우리는 이 기하학 시도를 ‘기하학적 딥러닝’이라고 부르며, 펠릭스 클라인의 정신에 충실하여 대칭과 불변성의 첫 번째 원리에서 서로 다른 귀납적 편향과 이를 구현하는 네트워크 아키텍처를 도출할 것을 제안한다. 특히, 구조화되지 않은 집합, 격자, 그래프, 매니폴드를 분석하기 위해 설계된 대규모 신경망에 초점을 맞추고, 이러한 도메인의 구조와 대칭을 존중하는 방법으로 통합적으로 이해할 수 있음을 보여준다.

우리는 이 텍스트가 광범위한 심층 학습 연구자, 실무자 및 애호가에게 어필할 것이라고 믿습니다. 초보자는 이를 기하 딥러닝의 개요 및 소개로 활용할 수 있다. 노련한 딥 러닝 전문가는 기본 원리와 몇 가지 놀라운 연결에서 친숙한 아키텍처를 도출하는 새로운 방법을 발견할 수 있다. 실천가는 각 분야의 문제를 해결하는 방법에 대한 새로운 통찰력을 얻을 수 있다.

현대 기계 학습처럼 빠르게 진행되는 분야라면, 이런 글을 쓸 위험은 낮의 빛을 보기 전에 쓸모없고 무관해지기 때문이다. 기반에 초점을 맞춘 우리의 희망은 우리가 논의하는 핵심 개념이 특정 현실을 초월할 것이라는 것이다. 777“The knowledge of certain principles easily compensates the lack of knowledge of certain facts.” (Helvétius, 1759)— 또는 Claude Adrien Helvétius가 말했듯이 “la connaissance de certains principes supplée facilement à la connoissance de certains faits.”

Notation

Ω,uΩ𝑢\Omega,uroman_Ω , italic_u

Domain, point on domain

x(u)𝒳(Ω,𝒞)𝑥𝑢𝒳Ω𝒞x(u)\in\mathcal{X}(\Omega,\mathcal{C})italic_x ( italic_u ) ∈ caligraphic_X ( roman_Ω , caligraphic_C )

Signal on the domain of the form x:Ω𝒞:𝑥Ω𝒞x:\Omega\rightarrow\mathcal{C}italic_x : roman_Ω → caligraphic_C

f(x)(𝒳(Ω))𝑓𝑥𝒳Ωf(x)\in\mathcal{F}(\mathcal{X}(\Omega))italic_f ( italic_x ) ∈ caligraphic_F ( caligraphic_X ( roman_Ω ) )

Functions on signals on the domain of the form f:𝒳(Ω)𝒴:𝑓𝒳Ω𝒴f:\mathcal{X}(\Omega)\rightarrow\mathcal{Y}italic_f : caligraphic_X ( roman_Ω ) → caligraphic_Y

𝔊,𝔤𝔊𝔤{\mathfrak{G}},{\mathfrak{g}}fraktur_G , fraktur_g

Group, element of the group

𝔤.u,ρ(𝔤)formulae-sequence𝔤𝑢𝜌𝔤{\mathfrak{g}}.u,\rho({\mathfrak{g}})fraktur_g . italic_u , italic_ρ ( fraktur_g )

Group action, group representation

𝐗𝒞|Ω|×s𝐗superscript𝒞Ω𝑠\mathbf{X}\in\mathcal{C}^{|\Omega|\times s}bold_X ∈ caligraphic_C start_POSTSUPERSCRIPT | roman_Ω | × italic_s end_POSTSUPERSCRIPT

Matrix representing a signal on a discrete domain

𝐱u𝒞ssubscript𝐱𝑢superscript𝒞𝑠\mathbf{x}_{u}\in\mathcal{C}^{s}bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ∈ caligraphic_C start_POSTSUPERSCRIPT italic_s end_POSTSUPERSCRIPT

Vector representing a discrete domain signal 𝐗𝐗\mathbf{X}bold_X on element uΩ𝑢Ωu\in\Omegaitalic_u ∈ roman_Ω

xuj𝒞subscript𝑥𝑢𝑗𝒞x_{uj}\in\mathcal{C}italic_x start_POSTSUBSCRIPT italic_u italic_j end_POSTSUBSCRIPT ∈ caligraphic_C

Scalar representing the j𝑗jitalic_jth component of a discrete domain signal 𝐗𝐗\mathbf{X}bold_X on element uΩ𝑢Ωu\in\Omegaitalic_u ∈ roman_Ω

𝐅(𝐗)𝐅𝐗\mathbf{F}(\mathbf{X})bold_F ( bold_X )

Function on discrete domain signals that returns another discrete domain signal, as a matrix

τ:ΩΩ:𝜏ΩΩ\tau:\Omega\rightarrow\Omegaitalic_τ : roman_Ω → roman_Ω

Automorphism of the domain

η:ΩΩ:𝜂ΩsuperscriptΩ\eta:\Omega\rightarrow\Omega^{\prime}italic_η : roman_Ω → roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT

Isomorphism between two different domains

σ:𝒞𝒞:𝜎𝒞superscript𝒞\sigma:\mathcal{C}\rightarrow\mathcal{C}^{\prime}italic_σ : caligraphic_C → caligraphic_C start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT

Activation function (point-wise non-linearity)

G=(𝒱,)𝐺𝒱G=(\mathcal{V},\mathcal{E})italic_G = ( caligraphic_V , caligraphic_E )

Graph with nodes 𝒱𝒱\mathcal{V}caligraphic_V and edges \mathcal{E}caligraphic_E

𝒯=(𝒱,,)𝒯𝒱\mathcal{T}=(\mathcal{V},\mathcal{E},\mathcal{F})caligraphic_T = ( caligraphic_V , caligraphic_E , caligraphic_F )

Mesh with nodes 𝒱𝒱\mathcal{V}caligraphic_V, edges \mathcal{E}caligraphic_E, and faces \mathcal{F}caligraphic_F

xθ𝑥𝜃x\star\thetaitalic_x ⋆ italic_θ

Convolution with filter θ𝜃\thetaitalic_θ

Svsubscript𝑆𝑣S_{v}italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT

Shift operator

φisubscript𝜑𝑖\varphi_{i}italic_φ start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT

Basis function

TuΩ,TΩsubscript𝑇𝑢Ω𝑇ΩT_{u}\Omega,T\Omegaitalic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω , italic_T roman_Ω

Tangent space at u𝑢uitalic_u, tangent bundle

XTuΩ𝑋subscript𝑇𝑢ΩX\in T_{u}\Omegaitalic_X ∈ italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω

Tangent vector

gu(X,Y)=X,Yusubscript𝑔𝑢𝑋𝑌subscript𝑋𝑌𝑢g_{u}(X,Y)=\langle X,Y\rangle_{u}italic_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_X , italic_Y ) = ⟨ italic_X , italic_Y ⟩ start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT

Riemannian metric

(γ),uv𝛾subscript𝑢𝑣\ell(\gamma),\ell_{uv}roman_ℓ ( italic_γ ) , roman_ℓ start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT

Length of a curve γ𝛾\gammaitalic_γ, discrete metric on edge (u,v)𝑢𝑣(u,v)( italic_u , italic_v )

1 Introduction

지난 10년 동안 데이터 과학 및 기계 학습에서 딥 러닝 방법으로 대표되는 실험적 혁명을 목격했다. 실제로, 컴퓨터 비전, 바둑 연주 또는 단백질 접기와 같이 이전에는 손이 닿지 않는 것으로 생각되었던 많은 고차원 학습 작업은 실제로 적절한 계산 규모로 실현 가능하다. 놀랍게도, 딥 러닝의 본질은 두 가지 간단한 알고리즘 원리로부터 구축된다: 첫째, 표현 또는 feature learning에 의해 적응된, 종종 계층적인 특징들이 각각의 태스크에 대한 규칙성의 적절한 개념을 포착하고, 둘째, 로컬 그래디언트-descent에 의한 학습은 전형적으로 backpropagation으로 구현된다.

고차원에서 일반 함수를 학습하는 것은 저주받은 추정 문제이지만 대부분의 관심 과제는 일반적이지 않으며 물리적 세계의 근본적인 저차원성과 구조에서 발생하는 필수 미리 정의된 규칙성을 포함한다. 이 텍스트는 광범위한 응용 분야에 걸쳐 적용될 수 있는 통일된 기하학적 원리를 통해 이러한 규칙성을 노출시키는 것과 관련이 있다.

큰 계의 알려진 대칭을 이용하는 것은 차원성의 저주에 대항하는 강력하고 고전적인 해결책이며, 대부분의 물리적 이론의 기초를 형성한다. 딥러닝 시스템도 예외는 아니며, 초기 연구자들은 이미지의 그리드, 시계열의 시퀀스 또는 분자의 위치 및 운동량, 병진 또는 회전과 같은 관련 대칭과 같은 물리적 측정에서 발생하는 저차원 기하학을 활용하기 위해 신경망을 채택했다. 우리의 박람회 전반에 걸쳐 우리는 이러한 모델과 다른 많은 모델을 기하 규칙성의 동일한 기본 원리의 자연 사례로 설명할 것이다.

Erlangen 프로그램의 정신에서 이러한 '기하학적 통일' 노력은 이중 목적을 제공한다: 한편으로, CNN, RNN, GNN 및 트랜스포머와 같은 가장 성공적인 신경망 아키텍처를 연구하기 위한 공통 수학적 프레임워크를 제공한다. 한편, 이전의 물리적 지식을 신경망 구조에 통합하기 위한 건설적인 절차를 제공하고, 아직 발명되지 않은 미래의 아키텍처를 구축하기 위한 원칙적인 방법을 제공한다.

진행하기 전에, 우리의 작업은 representation learning architecture 및 그 안의 데이터의 대칭성을 이용하는 것에 관한 것이라는 점에 주목할 필요가 있다. 이러한 표현이 사용될 수 있는 (자기 지도 학습, 생성 모델링 또는 강화 학습과 같은) 많은 흥미로운 pipelinesnot our central focus888The same applies for techniques used for optimising or regularising our architectures, such as Adam (Kingma and Ba, 2014), dropout (Srivastava et al., 2014) or batch normalisation (Ioffe and Szegedy, 2015).이다. 따라서 우리는 깊이 영향을 미치는 신경 파이프라인인 variational autoencoders (Kingma and Welling, 2013), 생성적 적대 네트워크 (Goodfellow et al., 2014), normalising flows (Rezende and Mohamed, 2015), deep Q-networks (Mnih et al., 2015), proximal policy optimisation (Schulman et al., 2017), 또는 deep mutual information maximization (Hjelm et al., 2019)에서는 검토하지 않을 것이다. 즉, 우리는 우리가 초점을 맞출 원칙이 이 모든 분야에서 매우 중요하다고 믿습니다.

또한, 기하학적 설계도의 힘을 설명하기 위해 상당히 넓은 그물을 던지려고 시도했지만, 우리의 작업은 Geometric Deep Learning에 대한 기존의 풍부한 연구 entire을 정확하게 요약하려고 시도하지 않는다. 오히려, 우리는 원리를 입증하고 기존 연구에서 근거하기 위해 잘 알려진 몇 가지 아키텍처를 심층적으로 연구하며, 독자가 이러한 원리를 접하거나 고안하는 미래의 기하학적 심층 아키텍처에 의미 있게 적용할 수 있는 충분한 참조를 남겼기를 바란다.

2 Learning in High Dimensions

지도 기계 학습은 가장 간단한 형식화에서, N𝑁Nitalic_N 관찰 𝒟={(xi,yi)}i=1N𝒟superscriptsubscriptsubscript𝑥𝑖subscript𝑦𝑖𝑖1𝑁{\mathcal{D}}=\{(x_{i},y_{i})\}_{i=1}^{N}caligraphic_D = { ( italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_y start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT 그려진 i.i.d.의 기본 데이터 분포 P𝑃Pitalic_P에 걸쳐 정의된 𝒳×𝒴𝒳𝒴{\mathcal{X}}\times{\mathcal{Y}}caligraphic_X × caligraphic_Y, 여기서 𝒳𝒳{\mathcal{X}}caligraphic_X𝒴𝒴{\mathcal{Y}}caligraphic_Y는 각각 데이터 및 라벨 도메인이다. 이 설정에서 정의하는 특징은 𝒳𝒳{\mathcal{X}}caligraphic_Xhigh-dimensional space: 하나는 전형적으로 𝒳=d𝒳superscript𝑑{\mathcal{X}}=\mathbb{R}^{d}caligraphic_X = blackboard_R start_POSTSUPERSCRIPT italic_d end_POSTSUPERSCRIPT를 큰 차원의 유클리드 공간 d𝑑ditalic_d라고 가정한다.

레이블 y𝑦yitalic_y가 미지의 함수 f𝑓fitalic_f에 의해 생성되어 yi=f(xi)subscript𝑦𝑖𝑓subscript𝑥𝑖y_{i}=f(x_{i})italic_y start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = italic_f ( italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT )가 되고, 학습 문제는 parametrised 함수 클래스 ={f𝜽Θ}subscript𝑓𝜽Θ{\mathcal{F}}=\{f_{\bm{\theta}\in\Theta}\}caligraphic_F = { italic_f start_POSTSUBSCRIPT bold_italic_θ ∈ roman_Θ end_POSTSUBSCRIPT }를 이용하여 함수 f𝑓fitalic_f를 추정하는 것으로 줄어든다고 가정하자. 신경망은 이러한 파라메트릭 함수 클래스의 일반적인 구현이며, 이 경우 𝜽Θ𝜽Θ\bm{\theta}\in\Thetabold_italic_θ ∈ roman_Θ는 네트워크 가중치에 해당한다. 이 이상화된 설정에서, 라벨에는 노이즈가 없고, 현대의 딥 러닝 시스템은 일반적으로 소위 인터폴레이팅 레짐, 여기서 추정된 f~~𝑓\tilde{f}\in{\mathcal{F}}over~ start_ARG italic_f end_ARG ∈ caligraphic_F는 모든 i=1,,N𝑖1𝑁i=1,\ldots,Nitalic_i = 1 , … , italic_N에 대해 f~(xi)=f(xi)~𝑓subscript𝑥𝑖𝑓subscript𝑥𝑖\tilde{f}(x_{i})=f(x_{i})over~ start_ARG italic_f end_ARG ( italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) = italic_f ( italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT )를 만족한다. 학습 알고리즘의 성능은 일부 expected performance 999Statistical learning theory is concerned with more refined notions of generalisation based on concentration inequalities; we will review some of these in future work. P𝑃{P}italic_P에서 가져온 새로운 샘플에 대해 loss L(,)𝐿L(\cdot,\cdot)italic_L ( ⋅ , ⋅ )

(f~):=𝔼PL(f~(x),f(x)),assign~𝑓subscript𝔼𝑃𝐿~𝑓𝑥𝑓𝑥{\mathcal{R}}(\tilde{f}):=\mathbb{E}_{P}\,\,L(\tilde{f}(x),f(x)),caligraphic_R ( over~ start_ARG italic_f end_ARG ) := blackboard_E start_POSTSUBSCRIPT italic_P end_POSTSUBSCRIPT italic_L ( over~ start_ARG italic_f end_ARG ( italic_x ) , italic_f ( italic_x ) ) ,

with the squared-loss L(y,y)=12|yy|2𝐿𝑦superscript𝑦12superscript𝑦superscript𝑦2L(y,y^{\prime})=\frac{1}{2}|y-y^{\prime}|^{2}italic_L ( italic_y , italic_y start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ) = divide start_ARG 1 end_ARG start_ARG 2 end_ARG | italic_y - italic_y start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT being among the most commonly used ones.

따라서 성공적인 학습 스킴은 규칙성 또는 inductive bias for f𝑓fitalic_f 함수 클래스 \mathcal{F}caligraphic_F의 구성 및 regularisation의 사용을 통해 부과되는 적절한 개념을 인코딩해야 한다. 우리는 다음 절에서 이 개념을 간략하게 소개한다.

2.1 Inductive Bias via Function Regularity

현대 기계 학습은 대용량 고품질 데이터 세트로 작동하며, 적절한 계산 리소스와 함께 이러한 대용량 데이터를 보간할 수 있는 용량으로 풍부한 함수 클래스 {\mathcal{F}}caligraphic_F의 설계에 동기를 부여한다. 이 사고방식은 가장 간단한 아키텍처 선택에서도 dense 함수 클래스를 산출하기 때문에 신경망과 잘 작동합니다. 10101010𝒜{limiai:ai𝒜}=𝒳.𝒜conditional-setsubscript𝑖subscript𝑎𝑖subscript𝑎𝑖𝒜𝒳\mathcal{A}\cup\{\displaystyle\lim_{i\rightarrow\infty}a_{i}:a_{i}\in\mathcal{A}\}=\mathcal{X}.caligraphic_A ∪ { roman_lim start_POSTSUBSCRIPT italic_i → ∞ end_POSTSUBSCRIPT italic_a start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT : italic_a start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∈ caligraphic_A } = caligraphic_X . 일반적인 범용 근사화 결과는 2층 퍼셉트론(two-layer perceptron, f(𝐱)=𝐜sign(𝐀𝐱+𝐛)𝑓𝐱superscript𝐜topsign𝐀𝐱𝐛f(\mathbf{x})=\mathbf{c}^{\top}\mathrm{sign}(\mathbf{A}\mathbf{x}+\mathbf{b})italic_f ( bold_x ) = bold_c start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT roman_sign ( bold_Ax + bold_b ))에 의해 표현되는 함수들의 클래스가 dsuperscript𝑑\mathbb{R}^{d}blackboard_R start_POSTSUPERSCRIPT italic_d end_POSTSUPERSCRIPT 상의 연속적인 함수들의 공간에서 밀집되어 있음을 보여준다. 거의 임의의 함수에 근사하는 능력은 다양한 Universal Approximation Theorems; 이러한 몇 가지 결과는 응용 수학자와 컴퓨터 과학자에 의해 1990년대에 증명되고 대중화되었다(예: Cybenko (1989); Hornik (1991); Barron (1993); Leshno et al. (1993); Maiorov (1999); Pinkus (1999) 참조).

Refer to caption
그림 1: Multilayer Perceptrons (Rosenblatt, 1958)는 가장 단순한 피드포워드 신경망인 범용 근사기이다: 단 하나의 히든 레이어를 사용하면 계단 함수의 조합을 나타낼 수 있어 임의의 정밀도로 임의의 연속 함수를 근사할 수 있다.

그러나 유니버설 근사화는 유도성 바이어스의 absence을 의미하지 않는다. 범용 근사치를 갖는 가설 공간 {\mathcal{F}}caligraphic_F가 주어지면, 우리는 복잡도 측정 c:+:𝑐subscriptc:{\mathcal{F}}\to\mathbb{R}_{+}italic_c : caligraphic_F → blackboard_R start_POSTSUBSCRIPT + end_POSTSUBSCRIPT를 정의하고 우리의 보간 문제를 다음과 같이 재정의할 수 있다.

f~argmingc(g)s.t.g(xi)=f(xi)fori=1,,N,\tilde{f}\in\arg\min_{g\in{\mathcal{F}}}c(g)\quad\mathrm{s.t.}\quad g(x_{i})=f(x_{i})\quad\mathrm{for}\,\,\,i=1,\ldots,N,over~ start_ARG italic_f end_ARG ∈ roman_arg roman_min start_POSTSUBSCRIPT italic_g ∈ caligraphic_F end_POSTSUBSCRIPT italic_c ( italic_g ) roman_s . roman_t . italic_g ( italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) = italic_f ( italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) roman_for italic_i = 1 , … , italic_N ,

즉, 우리는 가설 클래스 내에서 가장 규칙적인 함수를 찾고 있다. 표준 함수 공간에 대해, 이러한 복잡도 측정은 norm,11111111 비공식적으로, norm xnorm𝑥\|x\|∥ italic_x ∥는 벡터 x𝑥xitalic_x의 “길이”로 간주될 수 있다. A Banach space은 norm이 장착된 완전한 벡터 공간이다. making {\mathcal{F}}caligraphic_F a Banach space and allowing to leverage a plethora of theoretical results in functional analysis. 저차원에서 스플라인은 함수 근사를 위한 작업마입니다. 그들은 입방 스플라인에 대한 2차 미분 +|f′′(x)|2dxsuperscriptsubscriptsuperscriptsuperscript𝑓′′𝑥2differential-d𝑥\int_{-\infty}^{+\infty}|f^{\prime\prime}(x)|^{2}\mathrm{d}x∫ start_POSTSUBSCRIPT - ∞ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT + ∞ end_POSTSUPERSCRIPT | italic_f start_POSTSUPERSCRIPT ′ ′ end_POSTSUPERSCRIPT ( italic_x ) | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT roman_d italic_x의 제곱 노름과 같은 평활성이라는 고전적인 개념을 포착하는 노름과 함께 위와 같이 공식화될 수 있다.

뉴럴 네트워크의 경우, 복잡도 측정값 c𝑐citalic_c는 네트워크 가중치, 즉 c(f𝜽)=c(𝜽)𝑐subscript𝑓𝜽𝑐𝜽c(f_{\bm{\theta}})={c}(\bm{\theta})italic_c ( italic_f start_POSTSUBSCRIPT bold_italic_θ end_POSTSUBSCRIPT ) = italic_c ( bold_italic_θ )로 표현될 수 있다. 네트워크 가중치의 L2subscript𝐿2L_{2}italic_L start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT-norm, weight decay, 또는 소위 path-norm (Neyshabur et al., 2015)는 딥 러닝 문헌에서 인기 있는 선택이다. 베이지안 관점에서 이러한 복잡도 측정은 관심 함수에 대한 이전의 음의 로그로도 해석될 수 있다. 보다 일반적으로, 이러한 복잡성은 특정 최적화 스킴의 결과로서 경험적 손실(이른바 구조적 위험 최소화의 결과)에 통합함으로써 explicitly 또는 implicitly로 강제될 수 있다. 예를 들어, 과소-결정된 최소-제곱 대물렌즈 상에서의 그래디언트-하강은 최소 L2subscript𝐿2L_{2}italic_L start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT norm을 갖는 보간 솔루션을 선택할 것이라는 것은 잘 알려져 있다. 이러한 암시적 정규화 결과의 현대 신경망으로의 확장은 현재 연구의 주제이다(예: Blanc et al. (2020); Shamir and Vardi (2020); Razin and Cohen (2020); Gunasekar et al. (2017) 참조). 대체로, 자연적인 질문이 발생한다: 실제 예측 작업의 예상되는 규칙성과 복잡성을 포착하는 효과적인 전과를 어떻게 정의할 것인가?

2.2 The Curse of Dimensionality

저차원에서의 보간(d=1,2𝑑12d=1,2italic_d = 1 , 2 또는 3333로)은 점점 더 정교한 규칙성 클래스(스플라인 보간법, 웨이블릿, 곡선 또는 능선 등)를 사용하여 추정 오차의 매우 정밀한 수학적 제어를 갖는 고전적인 신호 처리 작업이지만, 고차원 문제에 대한 상황은 완전히 다르다.

In order to convey the essence of the idea, let us consider a classical notion of regularity that can be easily extended to high dimensions: 1-Lipschitz- functions f:𝒳:𝑓𝒳f:\mathcal{X}\to\mathbb{R}italic_f : caligraphic_X → blackboard_R, i.e. functions satisfying |f(x)f(x)|xx𝑓𝑥𝑓superscript𝑥norm𝑥superscript𝑥|f(x)-f(x^{\prime})|\leq\|x-x^{\prime}\|| italic_f ( italic_x ) - italic_f ( italic_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ) | ≤ ∥ italic_x - italic_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ∥ for all x,x𝒳𝑥superscript𝑥𝒳x,x^{\prime}\in\mathcal{X}italic_x , italic_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ∈ caligraphic_X. This hypothesis only asks the target function to be locally smooth, i.e., if we perturb the input x𝑥xitalic_x slightly (as measured by the norm xxnorm𝑥superscript𝑥\|x-x^{\prime}\|∥ italic_x - italic_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ∥), the output f(x)𝑓𝑥f(x)italic_f ( italic_x ) is not allowed to change much. If our only knowledge of the target function f𝑓fitalic_f is that it is 1111-Lipschitz, how many observations do we expect to require to ensure that our estimate f~~𝑓\tilde{f}over~ start_ARG italic_f end_ARG will be close to f𝑓fitalic_f? Figure 2 reveals that the general answer is necessarily exponential in the dimension d𝑑ditalic_d, signaling that the Lipschitz class grows ‘too quickly’ as the input dimension increases: in many applications with even modest dimension d𝑑ditalic_d, the number of samples would be bigger than the number of atoms in the universe. The situation is not better if one replaces the Lipschitz class by a global smoothness hypothesis, such as the Sobolev Class s(Ωd)superscript𝑠subscriptΩ𝑑{\mathcal{H}}^{s}(\Omega_{d})caligraphic_H start_POSTSUPERSCRIPT italic_s end_POSTSUPERSCRIPT ( roman_Ω start_POSTSUBSCRIPT italic_d end_POSTSUBSCRIPT )121212A function f𝑓fitalic_f is in the Sobolev class s(Ωd)superscript𝑠subscriptΩ𝑑{\mathcal{H}}^{s}(\Omega_{d})caligraphic_H start_POSTSUPERSCRIPT italic_s end_POSTSUPERSCRIPT ( roman_Ω start_POSTSUBSCRIPT italic_d end_POSTSUBSCRIPT ) if fL2(Ωd)𝑓superscript𝐿2subscriptΩ𝑑f\in L^{2}(\Omega_{d})italic_f ∈ italic_L start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ( roman_Ω start_POSTSUBSCRIPT italic_d end_POSTSUBSCRIPT ) and the generalised s𝑠sitalic_s-th order derivative is square-integrable: |ω|2s+1|f^(ω)|2𝑑ω<superscript𝜔2𝑠1superscript^𝑓𝜔2differential-d𝜔\int|\omega|^{2s+1}|\hat{f}(\omega)|^{2}d\omega<\infty∫ | italic_ω | start_POSTSUPERSCRIPT 2 italic_s + 1 end_POSTSUPERSCRIPT | over^ start_ARG italic_f end_ARG ( italic_ω ) | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT italic_d italic_ω < ∞, where f^^𝑓\hat{f}over^ start_ARG italic_f end_ARG is the Fourier transform of f𝑓fitalic_f; see Section 4.2. . Indeed, classic results (Tsybakov, 2008) establish a minimax rate of approximation and learning for the Sobolev class of the order ϵd/ssuperscriptitalic-ϵ𝑑𝑠\epsilon^{-d/s}italic_ϵ start_POSTSUPERSCRIPT - italic_d / italic_s end_POSTSUPERSCRIPT, showing that the extra smoothness assumptions on f𝑓fitalic_f only improve the statistical picture when sdproportional-to𝑠𝑑s\propto ditalic_s ∝ italic_d, an unrealistic assumption in practice.

Refer to caption
Figure 2: We consider a Lipschitz function f(x)=j=12dzjϕ(xxj)𝑓𝑥superscriptsubscript𝑗1superscript2𝑑subscript𝑧𝑗italic-ϕ𝑥subscript𝑥𝑗f(x)=\sum_{j=1}^{2^{d}}z_{j}\phi(x-x_{j})italic_f ( italic_x ) = ∑ start_POSTSUBSCRIPT italic_j = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 start_POSTSUPERSCRIPT italic_d end_POSTSUPERSCRIPT end_POSTSUPERSCRIPT italic_z start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT italic_ϕ ( italic_x - italic_x start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ) where zj=±1subscript𝑧𝑗plus-or-minus1z_{j}=\pm 1italic_z start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT = ± 1, xjdsubscript𝑥𝑗superscript𝑑x_{j}\in\mathbb{R}^{d}italic_x start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_d end_POSTSUPERSCRIPT is placed in each quadrant, and ϕitalic-ϕ\phiitalic_ϕ a locally supported Lipschitz ‘bump’. Unless we observe the function in most of the 2dsuperscript2𝑑2^{d}2 start_POSTSUPERSCRIPT italic_d end_POSTSUPERSCRIPT quadrants, we will incur in a constant error in predicting it. This simple geometric argument can be formalised through the notion of Maximum Discrepancy (von Luxburg and Bousquet, 2004), defined for the Lipschitz class as κ(d)=𝔼x,xsupfLip(1)|1Nlf(xl)1Nlf(xl)|N1/d𝜅𝑑subscript𝔼𝑥superscript𝑥subscriptsupremum𝑓Lip11𝑁subscript𝑙𝑓subscript𝑥𝑙1𝑁subscript𝑙𝑓subscriptsuperscript𝑥𝑙similar-to-or-equalssuperscript𝑁1𝑑\kappa(d)=\mathbb{E}_{x,x^{\prime}}\sup_{f\in\mathrm{Lip}(1)}\left|\frac{1}{N}\sum_{l}f(x_{l})-\frac{1}{N}\sum_{l}f(x^{\prime}_{l})\right|\simeq N^{-1/d}italic_κ ( italic_d ) = blackboard_E start_POSTSUBSCRIPT italic_x , italic_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT end_POSTSUBSCRIPT roman_sup start_POSTSUBSCRIPT italic_f ∈ roman_Lip ( 1 ) end_POSTSUBSCRIPT | divide start_ARG 1 end_ARG start_ARG italic_N end_ARG ∑ start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT italic_f ( italic_x start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT ) - divide start_ARG 1 end_ARG start_ARG italic_N end_ARG ∑ start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT italic_f ( italic_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT ) | ≃ italic_N start_POSTSUPERSCRIPT - 1 / italic_d end_POSTSUPERSCRIPT, which measures the largest expected discrepancy between two independent N𝑁Nitalic_N-sample expectations. Ensuring that κ(d)ϵsimilar-to-or-equals𝜅𝑑italic-ϵ\kappa(d)\simeq\epsilonitalic_κ ( italic_d ) ≃ italic_ϵ requires N=Θ(ϵd)𝑁Θsuperscriptitalic-ϵ𝑑N=\Theta(\epsilon^{-d})italic_N = roman_Θ ( italic_ϵ start_POSTSUPERSCRIPT - italic_d end_POSTSUPERSCRIPT ); the corresponding sample {xl}lsubscriptsubscript𝑥𝑙𝑙\{x_{l}\}_{l}{ italic_x start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT defines an ϵitalic-ϵ\epsilonitalic_ϵ-net of the domain. For a d𝑑ditalic_d-dimensional Euclidean domain of diameter 1111, its size grows exponentially as ϵdsuperscriptitalic-ϵ𝑑\epsilon^{-d}italic_ϵ start_POSTSUPERSCRIPT - italic_d end_POSTSUPERSCRIPT.

완전 연결 신경망은 가중치에 복잡도 함수 c𝑐citalic_c를 고려하여 얻어지는 규칙성의 보다 유연한 개념을 가능하게 하는 함수 공간을 정의한다. 특히 희소성 촉진 규칙화를 선택함으로써 차원성 (Bach, 2017)의 저주를 깨는 능력이 있다. 그러나, 이는, f𝑓fitalic_f가 입력의 저차원 투영들의 컬렉션에 의존한다는 것과 같이, 타겟 함수 f𝑓fitalic_f의 성질에 대해 강한 가정을 하는 것을 희생하여 온다(도 3 참조). 대부분의 실제 응용(컴퓨터 비전, 음성 분석, 물리 또는 화학 등)에서 관심 기능은 저차원 투영으로 표현할 수 없는 복잡한 장거리 상관 관계를 나타내는 경향이 있어(그림 3), 이 가설을 비현실적으로 만든다. 따라서 다음 섹션 3에서 설명한 것처럼 물리적 도메인의 공간 구조와 f𝑓fitalic_f의 기하학적 전형을 활용하여 규칙성의 대체 소스를 정의할 필요가 있다.

Refer to caption
그림 3: 미지의 함수 f𝑓fitalic_ff(𝐱)g(𝐀𝐱)𝑓𝐱𝑔𝐀𝐱f(\mathbf{x})\approx g(\mathbf{A}\mathbf{x})italic_f ( bold_x ) ≈ italic_g ( bold_Ax )와 같이 잘 근사된 것으로 추정되면, kdmuch-less-than𝑘𝑑k\ll ditalic_k ≪ italic_d와 함께 일부 미지의 𝐀k×d𝐀superscript𝑘𝑑\mathbf{A}\in\mathbb{R}^{k\times d}bold_A ∈ blackboard_R start_POSTSUPERSCRIPT italic_k × italic_d end_POSTSUPERSCRIPT에 대해, shallow neural networks can capture this inductive bias, see e.g. Bach (2017). 전형적인 응용들에서, 이러한 저차원 투영에 대한 의존성은, 이 예에서 예시된 바와 같이, 비현실적이다: 저-패스 필터는 입력 이미지들을 저-차원 서브공간으로 투영하고; 그것은 대부분의 의미론들을 전달하지만, 실질적인 정보는 손실된다.

3 Geometric Priors

현대 데이터 분석은 고차원 학습과 동의어이다. 섹션 2.1의 간단한 인수는 차원의 저주의 결과로 일반 고차원 데이터에서 학습의 불가능성을 드러내지만, 물리적으로 구조화된 데이터에 대한 희망이 있으며, 여기서 우리는 두 가지 기본 원리를 사용할 수 있다: symmetryscale separation. 이 텍스트에서 고려되는 설정에서 이 추가 구조는 일반적으로 입력 신호의 기초가 되는 도메인의 구조에서 비롯됩니다. 우리는 기계 학습 시스템이 일부 도메인 ΩΩ\Omegaroman_Ω에서 signals(functions)에서 작동한다고 가정합니다. 많은 경우에 ΩΩ\Omegaroman_Ω 상의 점들의 선형 조합은 잘 정의되지 않은 13131313ΩΩ\Omegaroman_Ω는 수식 αu+βv𝛼𝑢𝛽𝑣\alpha u+\beta vitalic_α italic_u + italic_β italic_v가 말이 되기 위해서는 벡터 공간이어야 한다. > 또한 신호 간의 내적을 정의할 수 있으므로 이 공간은 Hilbert space이다.

The space of 𝒞𝒞\mathcal{C}caligraphic_C-valued signals on ΩΩ\Omegaroman_Ω 141414When ΩΩ\Omegaroman_Ω has some additional structure, we may further restrict the kinds of signals in 𝒳(Ω,𝒞)𝒳Ω𝒞\mathcal{X}(\Omega,\mathcal{C})caligraphic_X ( roman_Ω , caligraphic_C ). For example, when ΩΩ\Omegaroman_Ω is a smooth manifold, we may require the signals to be smooth. Whenever possible, we will omit the range 𝒞𝒞\mathcal{C}caligraphic_C for brevity. (for ΩΩ\Omegaroman_Ω a set, possibly with additional structure, and 𝒞𝒞\mathcal{C}caligraphic_C a vector space, whose dimensions are called channels) 𝒳(Ω,𝒞)={x:Ω𝒞}𝒳Ω𝒞conditional-set𝑥Ω𝒞\mathcal{X}(\Omega,\mathcal{C})=\{x:\Omega\rightarrow\mathcal{C}\}caligraphic_X ( roman_Ω , caligraphic_C ) = { italic_x : roman_Ω → caligraphic_C } (1) is a function space that has a vector space structure. Addition and scalar multiplication of signals is defined as: (αx+βy)(u)=αx(u)+βy(u)for alluΩ,formulae-sequence𝛼𝑥𝛽𝑦𝑢𝛼𝑥𝑢𝛽𝑦𝑢for all𝑢Ω(\alpha x+\beta y)(u)=\alpha x(u)+\beta y(u)\quad\text{for all}\quad u\in\Omega,( italic_α italic_x + italic_β italic_y ) ( italic_u ) = italic_α italic_x ( italic_u ) + italic_β italic_y ( italic_u ) for all italic_u ∈ roman_Ω , with real scalars α,β𝛼𝛽\alpha,\betaitalic_α , italic_β. Given an inner product v,w𝒞subscript𝑣𝑤𝒞\langle v,w\rangle_{\mathcal{C}}⟨ italic_v , italic_w ⟩ start_POSTSUBSCRIPT caligraphic_C end_POSTSUBSCRIPT on 𝒞𝒞\mathcal{C}caligraphic_C and a measure151515When the domain ΩΩ\Omegaroman_Ω is discrete, μ𝜇\muitalic_μ can be chosen as the counting measure, in which case the integral becomes a sum. In the following, we will omit the measure and use dud𝑢\mathrm{d}uroman_d italic_u for brevity. μ𝜇\muitalic_μ on ΩΩ\Omegaroman_Ω (with respect to which we can define an integral), we can define an inner product on 𝒳(Ω,𝒞)𝒳Ω𝒞\mathcal{X}(\Omega,\mathcal{C})caligraphic_X ( roman_Ω , caligraphic_C ) as x,y=Ωx(u),y(u)𝒞dμ(u).𝑥𝑦subscriptΩsubscript𝑥𝑢𝑦𝑢𝒞differential-d𝜇𝑢\langle x,y\rangle=\int_{\Omega}\langle x(u),\,y(u)\rangle_{\mathcal{C}}\;\mathrm{d}\mu(u).⟨ italic_x , italic_y ⟩ = ∫ start_POSTSUBSCRIPT roman_Ω end_POSTSUBSCRIPT ⟨ italic_x ( italic_u ) , italic_y ( italic_u ) ⟩ start_POSTSUBSCRIPT caligraphic_C end_POSTSUBSCRIPT roman_d italic_μ ( italic_u ) . (2)

대표적인 예시로서, Ω=n×nΩsubscript𝑛subscript𝑛\Omega=\mathbb{Z}_{n}\times\mathbb{Z}_{n}roman_Ω = blackboard_Z start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT × blackboard_Z start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT를 이차원 n×n𝑛𝑛n\times nitalic_n × italic_n 그리드, x𝑥xitalic_x RGB 이미지(즉, 신호x:Ω3:𝑥Ωsuperscript3x:\Omega\rightarrow\mathbb{R}^{3}italic_x : roman_Ω → blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT), f𝑓fitalic_f 3n23superscript𝑛23n^{2}3 italic_n start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT차원 입력에서 동작하는 함수(단층 Perceptron 등)로 한다. 다음에서 보다 상세히 볼 수 있듯이, 도메인 ΩΩ\Omegaroman_Ω는 보통 일정한 기하학적 구조와 대칭을 부여받는다. 스케일 분리는 신호를 더 거친 버전의 도메인으로 전달할 때 신호의 중요한 특성을 보존하는 능력(예: 기본 그리드를 조대화하여 이미지를 서브샘플링)에서 비롯된다.

우리는 일반적으로 geometric priors이라고 지칭할 두 원리가 대부분의 현대 딥 러닝 아키텍처에서 두드러진다는 것을 보여줄 것이다. 위에서 고려된 이미지의 경우, 기하학적 사전은 공유된 가중치(병진 대칭을 이용함) 및 풀링(스케일 분리를 이용함)을 갖는 컨볼루션 필터 형태의 컨볼루션 신경망(CNN)에 구축된다. 이러한 아이디어를 그래프 및 매니폴드와 같은 다른 영역으로 확장하고 기본 원칙에서 기하학적 전례가 어떻게 나타나는지 보여주는 것이 기하 딥러닝의 주요 목표이며 텍스트의 leitmotif이다.

3.1 Symmetries, Representations, and Invariance

비공식적으로, 객체 또는 시스템의 symmetry은 상기 객체 또는 시스템의 특정 속성을 변경하지 않거나 invariant을 남기는 변환이다. 이러한 변환은 매끄럽거나 연속적이거나 이산적일 수 있다. 대칭은 많은 기계 학습 작업에서 어디에나 있습니다. 예를 들어, 컴퓨터 비전에서 객체 카테고리는 시프트에 의해 변하지 않으므로, 시프트는 시각적 객체 분류의 문제에서 대칭이다. 계산 화학에서 분자의 특성을 공간에서의 방향과 독립적으로 예측하는 작업은 rotational invariance을 필요로 한다. 이산 대칭은 입자들이 정준적 질서를 갖지 않고 따라서 임의적으로 순열될 수 있는 입자 계를 설명할 때, 시간-역 대칭(상세한 균형의 계 또는 뉴턴의 제2 운동 법칙과 같은)을 통해 많은 역학 계뿐만 아니라 임의적으로 순열될 수 있는 입자 계를 설명할 때 자연스럽게 나타난다. 섹션 4.1에서 볼 수 있듯이 순열 대칭도 그래프 구조 데이터 분석의 중심이다.

Symmetry groups

객체의 대칭 집합은 다수의 속성을 만족한다. 먼저, 대칭을 결합하여 새로운 대칭을 얻을 수 있다: 𝔤𝔤{\mathfrak{g}}fraktur_g𝔥𝔥{\mathfrak{h}}fraktur_h가 두 대칭이면, 그 구성 𝔤𝔥𝔤𝔥{\mathfrak{g}}\circ{\mathfrak{h}}fraktur_g ∘ fraktur_h𝔥𝔤𝔥𝔤{\mathfrak{h}}\circ{\mathfrak{g}}fraktur_h ∘ fraktur_g 16161616그룹 이론에서 사용되는 병치 표기 규칙을 따를 것이다. 많은 경우에 대칭이 비교환적이기 때문에 순서가 중요하다. Lie 그룹에 익숙한 독자들은 Fraktur 글꼴을 사용하여 그룹 요소를 나타내려는 우리의 선택에 방해를 받을 수 있는데, 이는 Lie 대수의 일반적인 표기법이기 때문이다. are also symmetries. 그 이유는 두 변환이 모두 대상을 불변으로 떠난다면 변환의 구성도 마찬가지이므로 그 구성 역시 대칭이기 때문이다. 더욱이 대칭은 항상 가역적이며, 역도 대칭이다. 이는 모든 대칭의 집합이 group으로 알려진 대수적 객체를 형성함을 보여준다. 이러한 객체는 기하 딥러닝의 수학적 모델의 중심이 될 것이므로 공식적인 정의와 자세한 논의를 받을 자격이 있다.

A group is a set 𝔊𝔊{\mathfrak{G}}fraktur_G along with a binary operation :𝔊×𝔊𝔊\circ:{\mathfrak{G}}\times{\mathfrak{G}}\rightarrow{\mathfrak{G}}∘ : fraktur_G × fraktur_G → fraktur_G called composition (for brevity, denoted by juxtaposition 𝔤𝔥=𝔤𝔥𝔤𝔥𝔤𝔥{\mathfrak{g}}\circ{\mathfrak{h}}={\mathfrak{g}}{\mathfrak{h}}fraktur_g ∘ fraktur_h = fraktur_g fraktur_h) satisfying the following axioms: Associativity: (𝔤𝔥)𝔨=𝔤(𝔥𝔨)𝔤𝔥𝔨𝔤𝔥𝔨({\mathfrak{g}}{\mathfrak{h}}){\mathfrak{k}}={\mathfrak{g}}({\mathfrak{h}}{\mathfrak{k}})( fraktur_g fraktur_h ) fraktur_k = fraktur_g ( fraktur_h fraktur_k ) for all 𝔤,𝔥,𝔨𝔊𝔤𝔥𝔨𝔊{\mathfrak{g}},{\mathfrak{h}},{\mathfrak{k}}\in{\mathfrak{G}}fraktur_g , fraktur_h , fraktur_k ∈ fraktur_G. Identity: there exists a unique 𝔢𝔊𝔢𝔊{\mathfrak{e}}\in{\mathfrak{G}}fraktur_e ∈ fraktur_G satisfying 𝔢𝔤=𝔤𝔢=𝔤𝔢𝔤𝔤𝔢𝔤{\mathfrak{e}}{\mathfrak{g}}={\mathfrak{g}}{\mathfrak{e}}={\mathfrak{g}}fraktur_e fraktur_g = fraktur_g fraktur_e = fraktur_g for all 𝔤𝔊𝔤𝔊{\mathfrak{g}}\in{\mathfrak{G}}fraktur_g ∈ fraktur_G. Inverse: For each 𝔤𝔊𝔤𝔊{\mathfrak{g}}\in{\mathfrak{G}}fraktur_g ∈ fraktur_G there is a unique inverse 𝔤1𝔊superscript𝔤1𝔊{\mathfrak{g}}^{-1}\in{\mathfrak{G}}fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ∈ fraktur_G such that 𝔤𝔤1=𝔤1𝔤=𝔢𝔤superscript𝔤1superscript𝔤1𝔤𝔢{\mathfrak{g}}{\mathfrak{g}}^{-1}={\mathfrak{g}}^{-1}{\mathfrak{g}}={\mathfrak{e}}fraktur_g fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT = fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT fraktur_g = fraktur_e. Closure: The group is closed under composition, i.e., for every 𝔤,𝔥𝔊𝔤𝔥𝔊{\mathfrak{g}},{\mathfrak{h}}\in{\mathfrak{G}}fraktur_g , fraktur_h ∈ fraktur_G, we have 𝔤𝔥𝔊𝔤𝔥𝔊{\mathfrak{g}}{\mathfrak{h}}\ \in{\mathfrak{G}}fraktur_g fraktur_h ∈ fraktur_G.

Note that commutativity is not part of this definition, i.e. we may have 𝔤𝔥𝔥𝔤𝔤𝔥𝔥𝔤{\mathfrak{g}}{\mathfrak{h}}\neq{\mathfrak{h}}{\mathfrak{g}}fraktur_g fraktur_h ≠ fraktur_h fraktur_g. Groups for which 𝔤𝔥=𝔥𝔤𝔤𝔥𝔥𝔤{\mathfrak{g}}{\mathfrak{h}}={\mathfrak{h}}{\mathfrak{g}}fraktur_g fraktur_h = fraktur_h fraktur_g for all 𝔤,𝔥𝔊𝔤𝔥𝔊{\mathfrak{g}},{\mathfrak{h}}\in{\mathfrak{G}}fraktur_g , fraktur_h ∈ fraktur_G are called commutative or Abelian171717After the Norwegian mathematician Niels Henrik Abel (1802–1829)..

일부 그룹은 매우 크고 심지어 무한할 수 있지만, 종종 그룹 생성기이라고 하는 몇 가지 요소의 구성에서 발생한다. 형식적으로, 𝔊𝔊\mathfrak{G}fraktur_G는 하위 집합 S𝔊𝑆𝔊S\subseteq\mathfrak{G}italic_S ⊆ fraktur_G에 의해 generated이라고 한다(그룹 generator이라고 한다) 모든 요소 𝔤𝔊𝔤𝔊{\mathfrak{g}}\in{\mathfrak{G}}fraktur_g ∈ fraktur_GS𝑆Sitalic_S의 요소와 그 역수의 유한한 구성으로 작성될 수 있는 경우. 예를 들어, 정삼각형(다면체 그룹 D3subscriptD3\mathrm{D}_{3}roman_D start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT)의 대칭군은 60superscript6060^{\circ}60 start_POSTSUPERSCRIPT ∘ end_POSTSUPERSCRIPT 회전과 반사에 의해 생성된다(도 4). 아래에서 자세히 논의할 1D translation group은 무한소 변위에 의해 생성되며, 이는 미분 가능한 대칭의 Lie group의 예입니다. 181818Lie groups has a differentiable manifold structure. 우리가 섹션 4.3에서 연구할 그러한 예 중 하나는 3차원 매니폴드인 특수 직교 그룹 SO(3)SO3\mathrm{SO}(3)roman_SO ( 3 )이다.

여기에서 그룹 요소 are (예: 일부 도메인의 변환)는 말할 것도 없이 그룹이 추상 객체로 정의되었다는 점에 유의하십시오. 따라서, 매우 다른 종류의 물체들은 동일한 대칭 그룹을 가질 수 있다. 예를 들어, 앞서 언급한 삼각형의 회전 및 반사 대칭 그룹은 세 요소의 시퀀스의 순열 그룹과 동일하다(우리는 회전 및 반사를 사용하여 삼각형의 모서리를 어떤 방식으로든 순열할 수 있다 – 그림 4 참조)191919The diagram shown in Figure 4 (where each node is associated with a group element, and each arrow with a generator), is known as the Cayley diagram.).

Refer to caption    Refer to caption

도 4: Left: 1,2,31231,2,31 , 2 , 3로 라벨링된 코너들을 갖는 정삼각형, 및 삼각형의 모든 가능한 회전들 및 반사들. 삼각형의 회전/반사 대칭의 그룹 D3subscriptD3\mathrm{D}_{3}roman_D start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT는 두 개의 엘리먼트(60superscript6060^{\circ}60 start_POSTSUPERSCRIPT ∘ end_POSTSUPERSCRIPTR 및 반사 F에 의한 회전)에 의해서만 생성되며, 세 개의 엘리먼트의 순열의 그룹 Σ3subscriptΣ3\Sigma_{3}roman_Σ start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT와 동일하다.
Right: the multiplication table of the group D3subscriptD3\mathrm{D}_{3}roman_D start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT. The element in the row 𝔤𝔤{\mathfrak{g}}fraktur_g and column 𝔥𝔥{\mathfrak{h}}fraktur_h corresponds to the element 𝔤𝔥𝔤𝔥{\mathfrak{g}}{\mathfrak{h}}fraktur_g fraktur_h.

Group Actions and Group Representations

그룹을 추상 엔터티로 간주하는 대신 데이터에 대한 그룹 act에 주로 관심이 있습니다. 우리는 데이터 아래에 일부 도메인 ΩΩ\Omegaroman_Ω가 있다고 가정했기 때문에, 그룹이 ΩΩ\Omegaroman_Ω(예: 평면의 점들의 변환)에 어떻게 작용하는지 연구할 것이며, 거기서 신호 𝒳(Ω)𝒳Ω\mathcal{X}(\Omega)caligraphic_X ( roman_Ω )(예: 평면 이미지 및 특징 맵의 변환)의 공간에서 동일한 그룹의 액션을 얻을 것이다.

group action 202020Technically, what we define here is a left group action.of 𝔊𝔊{\mathfrak{G}}fraktur_G on a set ΩΩ\Omegaroman_Ω는 group element 𝔤𝔊𝔤𝔊{\mathfrak{g}}\in{\mathfrak{G}}fraktur_g ∈ fraktur_G와 point uΩ𝑢Ωu\in\Omegaitalic_u ∈ roman_Ω with some other point ΩΩ\Omegaroman_Ω in a group operation, 즉 𝔤.(𝔥.u)=(𝔤𝔥).u{\mathfrak{g}}.({\mathfrak{h}}.u)=({\mathfrak{g}}{\mathfrak{h}}).ufraktur_g . ( fraktur_h . italic_u ) = ( fraktur_g fraktur_h ) . italic_u for all 𝔤,𝔥𝔊𝔤𝔥𝔊{\mathfrak{g}},{\mathfrak{h}}\in{\mathfrak{G}}fraktur_g , fraktur_h ∈ fraktur_G and uΩ𝑢Ωu\in\Omegaitalic_u ∈ roman_Ω를 매핑하는 것으로 정의된다. 우리는 다음 섹션에서 그룹 액션의 수많은 사례를 볼 것이다. 예를 들어, 평면에서 Euclidean group E(2)E2\mathrm{E}(2)roman_E ( 2 )는 유클리드 거리를 보존하는 2superscript2\mathbb{R}^{2}blackboard_R start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT의 변환 그룹212121Distance-preserving transformations are called isometries. According to Klein’s Erlangen Programme, the classical Euclidean geometry arises from this group.이며, 번역, 회전, 반사로 구성된다. 그러나 동일한 그룹은 images의 공간뿐만 아니라 (픽셀의 그리드를 번역, 회전 및 뒤집음으로써) 신경망에 의해 학습된 표현 공간에도 작용할 수 있다. 보다 정확하게는, 그룹 𝔊𝔊{\mathfrak{G}}fraktur_GΩΩ\Omegaroman_Ω에 작용하는 경우, 스페이스 𝒳(Ω)𝒳Ω\mathcal{X}(\Omega)caligraphic_X ( roman_Ω )𝔊𝔊{\mathfrak{G}}fraktur_G의 액션을 자동으로 획득한다:

(𝔤.x)(u)=x(𝔤1u).({\mathfrak{g}}.x)(u)=x({\mathfrak{g}}^{-1}u).( fraktur_g . italic_x ) ( italic_u ) = italic_x ( fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT italic_u ) . (3)

𝔤𝔤{\mathfrak{g}}fraktur_g에 대한 역수로 인해, 우리는 (𝔤.(𝔥.x))(u)=((𝔤𝔥).x)(u)({\mathfrak{g}}.({\mathfrak{h}}.x))(u)=(({\mathfrak{g}}{\mathfrak{h}}).x)(u)( fraktur_g . ( fraktur_h . italic_x ) ) ( italic_u ) = ( ( fraktur_g fraktur_h ) . italic_x ) ( italic_u )를 가졌다는 점에서, 이것은 실제로 유효한 그룹 액션이다.

이 텍스트 전체에서 반복적으로 마주칠 가장 중요한 그룹 액션의 종류는 linear 그룹 액션이며, group representations이라고도 합니다. 방정식 (3)의 신호에 대한 작용은 실제로 선형이다.

𝔤.(αx+βx)=α(𝔤.x)+β(𝔤.x){\mathfrak{g}}.(\alpha x+\beta x^{\prime})=\alpha({\mathfrak{g}}.x)+\beta({\mathfrak{g}}.x^{\prime})fraktur_g . ( italic_α italic_x + italic_β italic_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ) = italic_α ( fraktur_g . italic_x ) + italic_β ( fraktur_g . italic_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT )

for any scalars α,β𝛼𝛽\alpha,\betaitalic_α , italic_β and signals x,x𝒳(Ω)𝑥superscript𝑥𝒳Ωx,x^{\prime}\in\mathcal{X}(\Omega)italic_x , italic_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ∈ caligraphic_X ( roman_Ω ). We can describe linear actions either as maps (𝔤,x)𝔤.xformulae-sequencemaps-to𝔤𝑥𝔤𝑥({\mathfrak{g}},x)\mapsto{\mathfrak{g}}.x( fraktur_g , italic_x ) ↦ fraktur_g . italic_x that are linear in x𝑥xitalic_x, or equivalently, by currying, as a map ρ:𝔊n×n:𝜌𝔊superscript𝑛𝑛\rho:{\mathfrak{G}}\rightarrow\mathbb{R}^{n\times n}italic_ρ : fraktur_G → blackboard_R start_POSTSUPERSCRIPT italic_n × italic_n end_POSTSUPERSCRIPT222222When ΩΩ\Omegaroman_Ω is infinte, the space of signals 𝒳(Ω)𝒳Ω\mathcal{X}(\Omega)caligraphic_X ( roman_Ω ) is infinite dimensional, in which case ρ(𝔤)𝜌𝔤\rho({\mathfrak{g}})italic_ρ ( fraktur_g ) is a linear operator on this space, rather than a finite dimensional matrix. In practice, one must always discretise to a finite grid, though.that assigns to each group element 𝔤𝔤{\mathfrak{g}}fraktur_g an (invertible) matrix ρ(𝔤)𝜌𝔤\rho({\mathfrak{g}})italic_ρ ( fraktur_g ). The dimension n𝑛nitalic_n of the matrix is in general arbitrary and not necessarily related to the dimensionality of the group or the dimensionality of ΩΩ\Omegaroman_Ω, but in applications to deep learning n𝑛nitalic_n will usually be the dimensionality of the feature space on which the group acts. For instance, we may have the group of 2D translations acting on a space of images with n𝑛nitalic_n pixels.

일반적인 그룹 액션과 마찬가지로, 그룹 요소에 행렬의 할당은 그룹 액션과 양립할 수 있어야 한다. 보다 구체적으로, 복합 그룹 요소 𝔤𝔥𝔤𝔥{\mathfrak{g}}{\mathfrak{h}}fraktur_g fraktur_h를 나타내는 매트릭스는 𝔤𝔤{\mathfrak{g}}fraktur_g𝔥𝔥{\mathfrak{h}}fraktur_h의 표현의 매트릭스 곱과 같아야 한다:

A n𝑛nitalic_n-dimensional real representation of a group 𝔊𝔊{\mathfrak{G}}fraktur_G is a map ρ:𝔊n×n:𝜌𝔊superscript𝑛𝑛\rho:{\mathfrak{G}}\rightarrow\mathbb{R}^{n\times n}italic_ρ : fraktur_G → blackboard_R start_POSTSUPERSCRIPT italic_n × italic_n end_POSTSUPERSCRIPT, assigning to each 𝔤𝔊𝔤𝔊{\mathfrak{g}}\in{\mathfrak{G}}fraktur_g ∈ fraktur_G an invertible matrix ρ(𝔤)𝜌𝔤\rho({\mathfrak{g}})italic_ρ ( fraktur_g ), and satisfying the condition ρ(𝔤𝔥)=ρ(𝔤)ρ(𝔥)𝜌𝔤𝔥𝜌𝔤𝜌𝔥\rho({\mathfrak{g}}{\mathfrak{h}})=\rho({\mathfrak{g}})\rho({\mathfrak{h}})italic_ρ ( fraktur_g fraktur_h ) = italic_ρ ( fraktur_g ) italic_ρ ( fraktur_h ) for all 𝔤,𝔥𝔊𝔤𝔥𝔊{\mathfrak{g}},{\mathfrak{h}}\in{\mathfrak{G}}fraktur_g , fraktur_h ∈ fraktur_G. 232323Similarly, a complex representation is a map ρ:𝔊n×n:𝜌𝔊superscript𝑛𝑛\rho:{\mathfrak{G}}\rightarrow\mathbb{C}^{n\times n}italic_ρ : fraktur_G → blackboard_C start_POSTSUPERSCRIPT italic_n × italic_n end_POSTSUPERSCRIPT satisfying the same equation.A representation is called unitary or orthogonal if the matrix ρ(𝔤)𝜌𝔤\rho({\mathfrak{g}})italic_ρ ( fraktur_g ) is unitary or orthogonal for all 𝔤𝔊𝔤𝔊{\mathfrak{g}}\in{\mathfrak{G}}fraktur_g ∈ fraktur_G.

Written in the language of group representations, the action of 𝔊𝔊{\mathfrak{G}}fraktur_G on signals x𝒳(Ω)𝑥𝒳Ωx\in\mathcal{X}(\Omega)italic_x ∈ caligraphic_X ( roman_Ω ) is defined as ρ(𝔤)x(u)=x(𝔤1u)𝜌𝔤𝑥𝑢𝑥superscript𝔤1𝑢\rho({\mathfrak{g}})x(u)=x({\mathfrak{g}}^{-1}u)italic_ρ ( fraktur_g ) italic_x ( italic_u ) = italic_x ( fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT italic_u ). We again verify that

(ρ(𝔤)(ρ(𝔥)x))(u)=(ρ(𝔤𝔥)x)(u).𝜌𝔤𝜌𝔥𝑥𝑢𝜌𝔤𝔥𝑥𝑢(\rho({\mathfrak{g}})(\rho({\mathfrak{h}})x))(u)=(\rho({\mathfrak{g}}{\mathfrak{h}})x)(u).( italic_ρ ( fraktur_g ) ( italic_ρ ( fraktur_h ) italic_x ) ) ( italic_u ) = ( italic_ρ ( fraktur_g fraktur_h ) italic_x ) ( italic_u ) .
Refer to caption
그림 5:
Three spaces of interest in Geometric Deep Learning: the (physical) domain ΩΩ\Omegaroman_Ω, the space of signals 𝒳(Ω)𝒳Ω\mathcal{X}(\Omega)caligraphic_X ( roman_Ω ), and the hypothesis class (𝒳(Ω))𝒳Ω\mathcal{F}(\mathcal{X}(\Omega))caligraphic_F ( caligraphic_X ( roman_Ω ) ). Symmetries of the domain ΩΩ\Omegaroman_Ω (captured by the group 𝔊𝔊{\mathfrak{G}}fraktur_G) act on signals x𝒳(Ω)𝑥𝒳Ωx\in\mathcal{X}(\Omega)italic_x ∈ caligraphic_X ( roman_Ω ) through group representations ρ(𝔤)𝜌𝔤\rho({\mathfrak{g}})italic_ρ ( fraktur_g ), imposing structure on the functions f(𝒳(Ω))𝑓𝒳Ωf\in\mathcal{F}(\mathcal{X}(\Omega))italic_f ∈ caligraphic_F ( caligraphic_X ( roman_Ω ) ) acting on such signals.

Invariant and Equivariant functions

The symmetry of the domain ΩΩ\Omegaroman_Ω underlying the signals 𝒳(Ω)𝒳Ω\mathcal{X}(\Omega)caligraphic_X ( roman_Ω ) imposes structure on the function f𝑓fitalic_f defined on such signals. It turns out to be a powerful inductive bias, improving learning242424In general, f𝑓fitalic_f depends both on the signal an the domain, i.e., (𝒳(Ω),Ω)𝒳ΩΩ\mathcal{F}(\mathcal{X}(\Omega),\Omega)caligraphic_F ( caligraphic_X ( roman_Ω ) , roman_Ω ). We will often omit the latter dependency for brevity. efficiency by reducing the space of possible interpolants, (𝒳(Ω))𝒳Ω\mathcal{F}(\mathcal{X}(\Omega))caligraphic_F ( caligraphic_X ( roman_Ω ) ), to those which satisfy the symmetry priors. Two important cases we will be exploring in this text are invariant and equivariant functions.

A function f:𝒳(Ω)𝒴:𝑓𝒳Ω𝒴f:\mathcal{X}(\Omega)\rightarrow\mathcal{Y}italic_f : caligraphic_X ( roman_Ω ) → caligraphic_Y is 𝔊𝔊{\mathfrak{G}}fraktur_G-invariant if f(ρ(𝔤)x)=f(x)𝑓𝜌𝔤𝑥𝑓𝑥f(\rho({\mathfrak{g}})x)=f(x)italic_f ( italic_ρ ( fraktur_g ) italic_x ) = italic_f ( italic_x ) for all 𝔤𝔊𝔤𝔊{\mathfrak{g}}\in{\mathfrak{G}}fraktur_g ∈ fraktur_G and x𝒳(Ω)𝑥𝒳Ωx\in\mathcal{X}(\Omega)italic_x ∈ caligraphic_X ( roman_Ω ), i.e., its output is unaffected by the group action on the input.

불변성의 고전적인 예는 shift-invariance,252525Note that signal processing books routinely use the term ‘shift-invariance’ referring to shift-equivariance, e.g. Linear Shift-invariant Systems. arising in computer vision and pattern recognition applications such such image classification. 이 경우의 함수 f𝑓fitalic_f(대표적으로 Convolutional Neural Network로 구현됨)는 이미지를 입력하고, 이미지가 어떤 클래스(예: 고양이 또는 개)로부터 객체를 포함할 확률을 출력한다. 종종 분류 결과가 이미지 내의 객체의 위치에 영향을 받지 않아야 한다는 것, 즉 함수 f𝑓fitalic_f는 시프트-불변적이어야 한다는 것이 합리적으로 가정된다. 매끄러운 기능에 근사할 수 있는 다층 퍼셉트론은 이러한 특성을 갖지 않는데, 1970년대 패턴 인식 문제에 이러한 아키텍처를 적용하려는 초기 시도가 실패한 이유 중 하나이다. 컨볼루션 신경망에 의해 전칭되는 지역 가중치 공유를 갖는 신경망 아키텍처의 개발은 다른 이유들 중에서도 시프트-불변 객체 분류의 필요성에 의해 동기가 부여되었다.

그러나 CNN의 컨볼루션 계층을 자세히 살펴보면 시프트 불변이 아니라 shift-equivariant: 즉, 컨볼루션 계층에 대한 입력의 시프트는 출력 특징 맵의 이동을 동일한 양만큼 생성한다.

A function f:𝒳(Ω)𝒳(Ω):𝑓𝒳Ω𝒳Ωf:\mathcal{X}(\Omega)\rightarrow\mathcal{X}(\Omega)italic_f : caligraphic_X ( roman_Ω ) → caligraphic_X ( roman_Ω ) is 𝔊𝔊{\mathfrak{G}}fraktur_G-equivariant if262626 More generally, we might have f:𝒳(Ω)𝒳(Ω):𝑓𝒳Ω𝒳superscriptΩf:\mathcal{X}(\Omega)\rightarrow\mathcal{X}(\Omega^{\prime})italic_f : caligraphic_X ( roman_Ω ) → caligraphic_X ( roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ) with input and output spaces having different domains Ω,ΩΩsuperscriptΩ\Omega,\Omega^{\prime}roman_Ω , roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT and representations ρ𝜌\rhoitalic_ρ, ρsuperscript𝜌\rho^{\prime}italic_ρ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT of the same group 𝔊𝔊{\mathfrak{G}}fraktur_G. In this case, equivariance is defined as f(ρ(𝔤)x)=ρ(𝔤)f(x)𝑓𝜌𝔤𝑥superscript𝜌𝔤𝑓𝑥f(\rho({\mathfrak{g}})x)=\rho^{\prime}({\mathfrak{g}})f(x)italic_f ( italic_ρ ( fraktur_g ) italic_x ) = italic_ρ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( fraktur_g ) italic_f ( italic_x ). f(ρ(𝔤)x)=ρ(𝔤)f(x)𝑓𝜌𝔤𝑥𝜌𝔤𝑓𝑥f(\rho({\mathfrak{g}})x)=\rho({\mathfrak{g}})f(x)italic_f ( italic_ρ ( fraktur_g ) italic_x ) = italic_ρ ( fraktur_g ) italic_f ( italic_x ) for all 𝔤𝔊𝔤𝔊{\mathfrak{g}}\in{\mathfrak{G}}fraktur_g ∈ fraktur_G, i.e., group action on the input affects the output in the same way.

컴퓨터 비전에 다시 정렬하여, 시프트-등분성이 요구되는 프로토타입 애플리케이션은 이미지 분할이며, 여기서 f𝑓fitalic_f의 출력은 픽셀-와이즈 이미지 마스크이다. 명백히, 분할 마스크는 입력 이미지에서 시프트들을 따라야 한다. 이 예에서, 입력과 출력의 도메인은 동일하지만, 출력이 클래스당 하나의 채널을 갖는 동안 입력이 세 개의 컬러 채널을 갖기 때문에, 표현 (ρ,𝒳(Ω,𝒞))𝜌𝒳Ω𝒞(\rho,\mathcal{X}(\Omega,\mathcal{C}))( italic_ρ , caligraphic_X ( roman_Ω , caligraphic_C ) )(ρ,𝒳(Ω,𝒞))superscript𝜌𝒳Ωsuperscript𝒞(\rho^{\prime},\mathcal{X}(\Omega,\mathcal{C}^{\prime}))( italic_ρ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT , caligraphic_X ( roman_Ω , caligraphic_C start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ) )는 다소 상이하다.

그러나, 이미지 분류의 이전 사용 사례조차도 일반적으로 컨볼루션(shift-equivariant) 계층의 시퀀스로 구현되고, 이어서 글로벌 풀링(shift-invariant)이 뒤따른다. 3.5절에서 살펴보겠지만, 이는 CNN 및 GNN(Graph Neural Networks)을 포함한 대부분의 딥 러닝 아키텍처의 일반적인 청사진이다.

3.2 Isomorphisms and Automorphisms

Subgroups and Levels of structure

앞서 언급한 바와 같이, 대칭272727Invertible and structure-preserving maps between different objects often go under the generic name of isomorphisms (Greek for ‘equal shape’). An isomorphism from an object to itself is called an automorphism, or symmetry.은 일부 속성 또는 구조를 보존하는 변환이며, 주어진 구조에 대한 이러한 모든 변환의 집합은 대칭 그룹을 형성한다. 하나의 구조가 아닌 여러 개의 관심 구조가 있는 경우가 많기 때문에 여러 levels of structure on our domain ΩΩ\Omegaroman_Ω를 고려할 수 있다. 따라서 대칭으로 간주되는 것은 고려 중인 구조에 따라 다르지만 모든 경우에 대칭은 이 구조를 존중하는 가역 지도이다.

가장 기본적인 레벨에서, 도메인 ΩΩ\Omegaroman_Ωset, 이는 최소한의 구조를 갖는다: 우리가 말할 수 있는 모든 것은, 세트가 일부 cardinality28282828유한 집합에 대해, 카디널리티는 집합의 이 구조를 보존하는 자체 지도는 bijections (invertible maps)이며, 이는 세트 레벨 대칭으로 간주할 수 있다. 공리를 확인함으로써 이것이 그룹임을 쉽게 확인할 수 있다 : 두 개의 바이젝션의 구성은 바이젝션(클로저)이기도 하고, 연관성은 함수 구성의 연관성에서 비롯되며, 맵 τ(u)=u𝜏𝑢𝑢\tau(u)=uitalic_τ ( italic_u ) = italic_u는 아이덴티티 요소이고, 모든 τ𝜏\tauitalic_τ에 대해 정의상 역이 존재하여 (ττ1)(u)=(τ1τ)(u)=u𝜏superscript𝜏1𝑢superscript𝜏1𝜏𝑢𝑢(\tau\circ\tau^{-1})(u)=(\tau^{-1}\circ\tau)(u)=u( italic_τ ∘ italic_τ start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ) ( italic_u ) = ( italic_τ start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ∘ italic_τ ) ( italic_u ) = italic_u를 만족한다.

애플리케이션에 따라, 추가적인 레벨의 구조가 존재할 수 있다. 예를 들어, ΩΩ\Omegaroman_Ω가 토폴로지 공간인 경우, continuity: 이러한 맵을 homeomorphisms이라고 하며, 세트 간의 간단한 바이젝션 외에도 연속적이며 연속 역수를 갖는다. 직관적으로, 연속 함수는 잘 행동하고, 점 u𝑢uitalic_u를 중심으로 이웃(열린 집합) 내의 점들을 τ(u)𝜏𝑢\tau(u)italic_τ ( italic_u )를 중심으로 이웃에 매핑한다.

하나는 맵 및 그 역이 (연속적으로) differentiable,292929Every differentiable function is continuous. If the map is continuously differentiable ‘sufficiently many times’, it is said to be smooth.i.e., 맵 및 그 역은 모든 지점에서 도함수를 갖는다(그리고 도함수도 연속적이다). 이것은 차별화 가능한 매니폴드와 함께 제공되는 추가적인 차별화 가능한 구조를 필요로 하며, 여기서 이러한 맵은 diffeomorphisms로 지칭되고 Diff(Ω)DiffΩ\mathrm{Diff}(\Omega)roman_Diff ( roman_Ω )로 표시된다. 우리가 만날 구조의 추가 예에는 distances 또는 metrics(이를 보존하는 지도는 isometries) 또는 orientation이 있습니다.

A metric or distance is a function d:Ω×Ω[0,):𝑑ΩΩ0d:\Omega\times\Omega\rightarrow[0,\infty)italic_d : roman_Ω × roman_Ω → [ 0 , ∞ ) satisfying for all u,v,wΩ𝑢𝑣𝑤Ωu,v,w\in\Omegaitalic_u , italic_v , italic_w ∈ roman_Ω: Identity of indiscernibles: d(u,v)=0𝑑𝑢𝑣0d(u,v)=0italic_d ( italic_u , italic_v ) = 0 iff u=v𝑢𝑣u=vitalic_u = italic_v. Symmetry: d(u,v)=d(v,u)𝑑𝑢𝑣𝑑𝑣𝑢d(u,v)=d(v,u)italic_d ( italic_u , italic_v ) = italic_d ( italic_v , italic_u ). Triangle inequality: d(u,v)d(u,w)+d(w,v)𝑑𝑢𝑣𝑑𝑢𝑤𝑑𝑤𝑣d(u,v)\leq d(u,w)+d(w,v)italic_d ( italic_u , italic_v ) ≤ italic_d ( italic_u , italic_w ) + italic_d ( italic_w , italic_v ). A space equipped with a metric (Ω,d)Ω𝑑(\Omega,d)( roman_Ω , italic_d ) is called a metric space.

고려해야 할 적절한 구조의 수준은 문제에 달려 있다. 예를 들어, 조직병리학 슬라이드 이미지를 분할할 때, 우리는 이미지의 뒤집힌 버전을 동등한 것으로 고려하기를 원할 수 있지만(현미경 아래에 놓으면 샘플이 뒤집힐 수 있기 때문에), 도로 표지판을 분류하려고 한다면, 방향 보존 변환을 대칭으로 고려하기를 원할 것이다(반사가 기호의 의미를 변경할 수 있기 때문에).

보존할 구조의 수준을 더하면 대칭군은 작아질 것이다. 실제로, 구조를 추가하는 것은 subgroup, 이는 그 자체로 그룹의 공리를 만족하는 더 큰 그룹의 하위 집합이다:

Let (𝔊,)𝔊({\mathfrak{G}},\circ)( fraktur_G , ∘ ) be a group and 𝔊𝔊\mathfrak{H}\subseteq{\mathfrak{G}}fraktur_H ⊆ fraktur_G a subset. \mathfrak{H}fraktur_H is said to be a subgroup of 𝔊𝔊{\mathfrak{G}}fraktur_G if (,)(\mathfrak{H},\circ)( fraktur_H , ∘ ) constitutes a group with the same operation.

예를 들어, 유클리드 이소메트리 E(2)E2\operatorname{E}(2)roman_E ( 2 )의 그룹은 평면 디페오모프리즘 Diff(2)Diff2\operatorname{Diff}(2)roman_Diff ( 2 )의 그룹의 하위 그룹이고, 차례로 배향 보존 이소메트리 SE(2)SE2\operatorname{SE}(2)roman_SE ( 2 )의 그룹은 E(2)E2\operatorname{E}(2)roman_E ( 2 )의 하위 그룹이다. 이 구조의 위계는 서문에 요약된 Erlangen Programme 철학을 따릅니다. 클라인의 구성에서 Projective, Affine 및 유클리드 기하학은 점점 더 불변하고 점진적으로 더 작은 그룹에 해당합니다.

Isomorphisms and Automorphisms

우리는 대칭을 구조 보존 및 반전 가능한 맵 from a object to itself으로 설명했다. 이러한 맵은 또한 automorphisms으로 알려져 있으며, 오브젝트가 자신과 동등한 방식을 설명한다. 그러나 맵의 동등하게 중요한 클래스는 두 비동일 객체 간의 동등성을 나타내는 소위 isomorphisms이다. 이러한 개념은 종종 통합되지만 다음 논의에 대한 명확성을 만들기 위해서는 이를 구별하는 것이 필요하다.

To understand the difference, consider a set Ω={0,1,2}Ω012\Omega=\{0,1,2\}roman_Ω = { 0 , 1 , 2 }. An automorphism of the set ΩΩ\Omegaroman_Ω is a bijection τ:ΩΩ:𝜏ΩΩ\tau:\Omega\rightarrow\Omegaitalic_τ : roman_Ω → roman_Ω such as a cyclic shift τ(u)=u+1mod3𝜏𝑢modulo𝑢13\tau(u)=u+1\mod 3italic_τ ( italic_u ) = italic_u + 1 roman_mod 3. Such a map preserves the cardinality property, and maps ΩΩ\Omegaroman_Ω onto itself. If we have another set Ω={a,b,c}superscriptΩ𝑎𝑏𝑐\Omega^{\prime}=\{a,b,c\}roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = { italic_a , italic_b , italic_c } with the same number of elements, then a bijection η:ΩΩ:𝜂ΩsuperscriptΩ\eta:\Omega\rightarrow\Omega^{\prime}italic_η : roman_Ω → roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT such as η(0)=a𝜂0𝑎\eta(0)=aitalic_η ( 0 ) = italic_a, η(1)=b𝜂1𝑏\eta(1)=bitalic_η ( 1 ) = italic_b, η(2)=c𝜂2𝑐\eta(2)=citalic_η ( 2 ) = italic_c is a set isomorphism.

그래프에 대한 섹션 4.1에서 볼 수 있듯이 구조의 개념은 노드의 수뿐만 아니라 연결성도 포함한다. 따라서 두 그래프 사이의 동형 η:𝒱𝒱:𝜂𝒱superscript𝒱\eta:\mathcal{V}\rightarrow\mathcal{V}^{\prime}italic_η : caligraphic_V → caligraphic_V start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT 𝒢=(𝒱,)𝒢𝒱\mathcal{G}=(\mathcal{V},\mathcal{E})caligraphic_G = ( caligraphic_V , caligraphic_E )𝒢=(𝒱,)superscript𝒢superscript𝒱superscript\mathcal{G}^{\prime}=(\mathcal{V}^{\prime},\mathcal{E}^{\prime})caligraphic_G start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = ( caligraphic_V start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT , caligraphic_E start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT )는 연결된 노드의 쌍을 연결된 노드의 쌍에 매핑하는 노드 사이의 바이젝션이고, 마찬가지로 연결되지 않은 노드의 쌍에 대해서도 마찬가지이다. 30303030I.e., (η(u),η(v))𝒱𝜂𝑢𝜂𝑣superscript𝒱(\eta(u),\eta(v))\in\mathcal{V}^{\prime}( italic_η ( italic_u ) , italic_η ( italic_v ) ) ∈ caligraphic_V start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT iff (u,v)𝒱𝑢𝑣𝒱(u,v)\in\mathcal{V}( italic_u , italic_v ) ∈ caligraphic_V. 따라서 두 개의 동형 그래프는 구조적으로 동일하며 노드의 순서만 다르다. 313131[Uncaptioned image]
The Folkman graph (Folkman, 1967) is a beautiful example of a graph with 3840 automorphisms, exemplified by the many symmetric ways to draw it.
반면에 그래프 오토모피즘 또는 대칭은 연결성을 유지하면서 그래프의 노드를 다시 자신에게 매핑하는 맵 τ:𝒱𝒱:𝜏𝒱𝒱\tau:\mathcal{V}\rightarrow\mathcal{V}italic_τ : caligraphic_V → caligraphic_V이다. 비-사소한 오토모피즘(즉, τid𝜏id\tau\neq\mathrm{id}italic_τ ≠ roman_id)을 갖는 그래프는 대칭을 제시한다.

3.3 Deformation Stability

섹션 3.13.2에서 소개된 대칭 형식주의는 어떤 변환이 대칭으로 간주될지 정확히 알고 있는 이상적인 세계를 포착하며, 이러한 대칭을 존중하고자 한다 exactly. 예를 들어 컴퓨터 비전에서 우리는 평면 병진이 정확한 대칭이라고 가정할 수 있다. 그러나 현실 세계는 시끄럽고 이 모델은 두 가지 면에서 부족합니다.

323232 [Uncaptioned image] Two objects moving at different velocities in a video define a transformation outside the translation group.

먼저, 이들 단순 그룹들은 global 도메인 ΩΩ\Omegaroman_Ω의 대칭들을 이해하는 방법을 제공하지만 (그리고 확장하여, 그것에 대한 신호들의, 𝒳(Ω)𝒳Ω{\mathcal{X}}(\Omega)caligraphic_X ( roman_Ω )), 그들은 local 대칭들을 잘 포착하지 못한다. 예를 들어, 각각이 다른 방향을 따라 움직이는 여러 객체가 있는 비디오 장면을 고려한다. 후속 프레임들에서, 결과적인 장면은 대략 동일한 시맨틱 정보를 포함할 것이지만, 어느 전역 번역도 한 프레임으로부터 다른 프레임으로의 변환을 설명하지 못한다. 카메라에 의해 보여지는 변형가능한 3D 객체와 같은 다른 경우들에서, 객체 동일성을 보존하는 변환들의 그룹을 기술하는 것은 단순히 매우 어렵다. 이러한 예는 실제로 우리가 글로벌하고 정확한 불변성이 로컬하고 부정확한 변형으로 대체되는 훨씬 더 큰 변형 세트에 더 관심이 있음을 보여준다. 우리의 논의에서, 도메인 ΩΩ\Omegaroman_Ω가 고정된 설정과 신호 x𝒳(Ω)𝑥𝒳Ωx\in{\mathcal{X}}(\Omega)italic_x ∈ caligraphic_X ( roman_Ω )가 변형을 겪고 있는 설정과 도메인 ΩΩ\Omegaroman_Ω 자체가 변형될 수 있는 설정의 두 시나리오를 구별할 것이다.

Stability to signal deformations

많은 응용에서, 우리는 신호 x𝑥xitalic_x의 작은 변형이 f(x)𝑓𝑥f(x)italic_f ( italic_x )의 출력을 바꾸지 않아야 한다는 선험적인 사실을 알고 있으므로, 그러한 변형을 대칭으로 간주하는 것은 유혹적이다. 예를 들어, 우리는 작은 디피모프리즘 τDiff(Ω)𝜏DiffΩ\tau\in\operatorname{Diff}(\Omega)italic_τ ∈ roman_Diff ( roman_Ω ), 또는 작은 바이젝션까지 대칭으로 볼 수 있다. 그러나, 작은 변형들은 큰 변형을 형성하기 위해 구성될 수 있으므로, "작은 변형들"은 그룹을 형성하지 않는다, 333333E.g., 두 개의 ϵitalic-ϵ\epsilonitalic_ϵ-isometries의 구성은 2ϵ2italic-ϵ2\epsilon2 italic_ϵ-isometry, closure 속성을 위반한다. and we ask for invariance or equivariance to small deformation only. 큰 변형은 입력의 의미 내용을 실제로 물질적으로 변화시킬 수 있기 때문에, 전체 그룹 Diff(Ω)DiffΩ\operatorname{Diff}(\Omega)roman_Diff ( roman_Ω )를 대칭 그룹으로 사용하는 것도 좋은 생각이 아니다.

A better approach is to quantify how “far” a given τDiff(Ω)𝜏DiffΩ\tau\in\operatorname{Diff}(\Omega)italic_τ ∈ roman_Diff ( roman_Ω ) is from a given symmetry subgroup 𝔊Diff(Ω)𝔊DiffΩ{\mathfrak{G}}\subset\operatorname{Diff}(\Omega)fraktur_G ⊂ roman_Diff ( roman_Ω ) (e.g. translations) with a complexity measure c(τ)𝑐𝜏c(\tau)italic_c ( italic_τ ), so that c(τ)=0𝑐𝜏0c(\tau)=0italic_c ( italic_τ ) = 0 whenever τ𝔊𝜏𝔊\tau\in{\mathfrak{G}}italic_τ ∈ fraktur_G. We can now replace our previous definition of exact invariance and equivarance under group actions with a ‘softer’ notion of deformation stability (or approximate invariance):

f(ρ(τ)x)f(x)Cc(τ)x,,x𝒳(Ω)\|f(\rho(\tau)x)-f(x)\|\leq Cc(\tau)\|x\|,~{},~{}\forall x\in{\mathcal{X}}(\Omega)∥ italic_f ( italic_ρ ( italic_τ ) italic_x ) - italic_f ( italic_x ) ∥ ≤ italic_C italic_c ( italic_τ ) ∥ italic_x ∥ , , ∀ italic_x ∈ caligraphic_X ( roman_Ω ) (4)

where ρ(τ)x(u)=x(τ1u)𝜌𝜏𝑥𝑢𝑥superscript𝜏1𝑢\rho(\tau)x(u)=x(\tau^{-1}u)italic_ρ ( italic_τ ) italic_x ( italic_u ) = italic_x ( italic_τ start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT italic_u ) as before, and where C𝐶Citalic_C is some constant independent of the signal x𝑥xitalic_x. A function f(𝒳(Ω))𝑓𝒳Ωf\in\mathcal{F}(\mathcal{X}(\Omega))italic_f ∈ caligraphic_F ( caligraphic_X ( roman_Ω ) ) satisfying the above equation is said to be geometrically stable. We will see examples of such functions in the next Section 3.4.

Since c(τ)=0𝑐𝜏0c(\tau)=0italic_c ( italic_τ ) = 0 for τ𝔊𝜏𝔊\tau\in{\mathfrak{G}}italic_τ ∈ fraktur_G, this definition generalises the 𝔊𝔊{\mathfrak{G}}fraktur_G-invariance property defined above. Its utility in applications depends on introducing an appropriate deformation cost. In the case of images defined over a continuous Euclidean plane, a popular choice is c2(τ):=Ωτ(u)2duassignsuperscript𝑐2𝜏subscriptΩsuperscriptnorm𝜏𝑢2differential-d𝑢c^{2}(\tau):=\int_{\Omega}\|\nabla\tau(u)\|^{2}\mathrm{d}uitalic_c start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ( italic_τ ) := ∫ start_POSTSUBSCRIPT roman_Ω end_POSTSUBSCRIPT ∥ ∇ italic_τ ( italic_u ) ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT roman_d italic_u, which measures the ‘elasticity’ of τ𝜏\tauitalic_τ, i.e., how different it is from the displacement by a constant vector field. This deformation cost is in fact a norm often called the Dirichlet energy, and can be used to quantify how far τ𝜏\tauitalic_τ is from the translation group.

Refer to caption
그림 6: ΩΩ\Omegaroman_Ω로부터 모든 bijective 매핑의 집합 자체가 set automorphism group Aut(Ω)AutΩ\mathrm{Aut}(\Omega)roman_Aut ( roman_Ω ), 이 중 대칭 그룹 𝔊𝔊{\mathfrak{G}}fraktur_G(원으로 표시됨)은 하위 그룹이다. 기하학적 안정성은 𝔊𝔊{\mathfrak{G}}fraktur_G-불변 및 등분성의 개념을 변환 사이의 일부 메트릭의 의미에서 정량화된 ‘𝔊𝔊{\mathfrak{G}}fraktur_G 주변의 변환’(회색 링으로 표시)으로 확장한다.
In this example, a smooth distortion of the image is close to a shift.

Stability to domain deformations

많은 응용에서, 변형되는 오브젝트는 신호가 아니라 기하학적 도메인 ΩΩ\Omegaroman_Ω 자체이다. 이것의 정규 인스턴스들은 그래프 및 다양체를 다루는 애플리케이션들이다: 그래프는 약간 상이한 사회적 관계들을 포함하는 상이한 시간의 인스턴스에서 소셜 네트워크를 모델링할 수 있거나(다음 그래프), 또는 다양체는 비-강성 변형을 겪는 3D 오브젝트를 모델링할 수 있다. 이러한 변형은 다음과 같이 정량화될 수 있다. 𝒟𝒟\mathcal{D}caligraphic_D가 가능한 모든 가변 도메인의 공간(모든 그래프의 공간, 또는 리만니안 매니폴드의 공간 등)을 나타내는 경우, Ω,Ω~𝒟Ω~Ω𝒟\Omega,\tilde{\Omega}\in\mathcal{D}roman_Ω , over~ start_ARG roman_Ω end_ARG ∈ caligraphic_D에 대해 적절한 메트릭(‘거리’)을 정의할 수 있는 d(Ω,Ω~)𝑑Ω~Ωd(\Omega,\tilde{\Omega})italic_d ( roman_Ω , over~ start_ARG roman_Ω end_ARG )d(Ω,Ω~)=0𝑑Ω~Ω0d(\Omega,\tilde{\Omega})=0italic_d ( roman_Ω , over~ start_ARG roman_Ω end_ARG ) = 0를 만족하는 d(Ω,Ω~)𝑑Ω~Ωd(\Omega,\tilde{\Omega})italic_d ( roman_Ω , over~ start_ARG roman_Ω end_ARG ) ΩΩ\Omegaroman_ΩΩ~~Ω\tilde{\Omega}over~ start_ARG roman_Ω end_ARG가 어떤 의미에서는 등가인 경우, 예를 들어 그래프 편집 거리는 그래프가 동형일 때 사라지고, 지오데식 거리가 장착된 리만니안 매니폴드 사이의 그로모프-하우스도르프 거리는 두 매니폴드가 등형일 때 사라진다. 343434The graph edit distance measures the minimal cost of making two graphs isomorphic by a sequences of graph edit operations. The Gromov-Hausdorff distance measures the smallest possible metric distortion of a correspondence between two metric spaces, see Gromov (1981).

도메인 간의 이러한 거리의 일반적인 구성은 해당 구조가 가장 잘 보존되는 방식으로 도메인을 '정렬'하려고 시도하는 역 매핑 η:ΩΩ~:𝜂Ω~Ω\eta:\Omega\to\tilde{\Omega}italic_η : roman_Ω → over~ start_ARG roman_Ω end_ARG의 일부 패밀리에 의존한다. 예를 들어, 그래프 또는 리만니안 매니폴드의 경우(측지선 거리를 갖는 메트릭 공간으로 간주됨), 이 정렬은 쌍별 인접성 또는 거리 구조를 비교할 수 있다(d𝑑ditalic_dd~~𝑑\tilde{d}over~ start_ARG italic_d end_ARG 각각),

d𝒟(Ω,Ω~)=infη𝔊dd~(η×η)subscript𝑑𝒟Ω~Ωsubscriptinfimum𝜂𝔊norm𝑑~𝑑𝜂𝜂d_{{\mathcal{D}}}(\Omega,\tilde{\Omega})=\inf_{\eta\in{\mathfrak{G}}}\|d-\tilde{d}\circ(\eta\times\eta)\|italic_d start_POSTSUBSCRIPT caligraphic_D end_POSTSUBSCRIPT ( roman_Ω , over~ start_ARG roman_Ω end_ARG ) = roman_inf start_POSTSUBSCRIPT italic_η ∈ fraktur_G end_POSTSUBSCRIPT ∥ italic_d - over~ start_ARG italic_d end_ARG ∘ ( italic_η × italic_η ) ∥

where 𝔊𝔊{\mathfrak{G}}fraktur_G is the group of isomorphisms such as bijections or isometries, and the norm is defined over the product space Ω×ΩΩΩ\Omega\times\Omegaroman_Ω × roman_Ω. In other words, a distance between elements of Ω,Ω~Ω~Ω\Omega,\tilde{\Omega}roman_Ω , over~ start_ARG roman_Ω end_ARG is ‘lifted’ to a distance between the domains themselves, by accounting for all the possible alignments that preserve the internal structure. 353535Two graphs can be aligned by the Quadratic Assignment Problem (QAP), which considers in its simplest form two graphs G,G~𝐺~𝐺G,\tilde{G}italic_G , over~ start_ARG italic_G end_ARG of the same size n𝑛nitalic_n, and solves min𝐏Σntrace(𝐀𝐏𝐀~𝐏)subscript𝐏subscriptΣ𝑛trace𝐀𝐏~𝐀superscript𝐏top\min_{\mathbf{P}\in\Sigma_{n}}\mathrm{trace}(\mathbf{AP\tilde{A}P}^{\top})roman_min start_POSTSUBSCRIPT bold_P ∈ roman_Σ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_POSTSUBSCRIPT roman_trace ( bold_AP over~ start_ARG bold_A end_ARG bold_P start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT ), where 𝐀,𝐀~𝐀~𝐀\mathbf{A},\tilde{\mathbf{A}}bold_A , over~ start_ARG bold_A end_ARG are the respective adjacency matrices and ΣnsubscriptΣ𝑛\Sigma_{n}roman_Σ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT is the group of n×n𝑛𝑛n\times nitalic_n × italic_n permutation matrices. The graph edit distance can be associated with such QAP (Bougleux et al., 2015). Given a signal x𝒳(Ω)𝑥𝒳Ωx\in{\mathcal{X}}(\Omega)italic_x ∈ caligraphic_X ( roman_Ω ) and a deformed domain Ω~~Ω\tilde{\Omega}over~ start_ARG roman_Ω end_ARG, one can then consider the deformed signal x~=xη1𝒳(Ω~)~𝑥𝑥superscript𝜂1𝒳~Ω\tilde{x}=x\circ\eta^{-1}\in{\mathcal{X}}(\tilde{\Omega})over~ start_ARG italic_x end_ARG = italic_x ∘ italic_η start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ∈ caligraphic_X ( over~ start_ARG roman_Ω end_ARG ).

By slightly abusing the notation, we define 𝒳(𝒟)={(𝒳(Ω),Ω):Ω𝒟}𝒳𝒟conditional-set𝒳ΩΩΩ𝒟{\mathcal{X}}(\mathcal{D})=\{({\mathcal{X}}(\Omega),\Omega)\,:\,\Omega\in\mathcal{D}\}caligraphic_X ( caligraphic_D ) = { ( caligraphic_X ( roman_Ω ) , roman_Ω ) : roman_Ω ∈ caligraphic_D } as the ensemble of possible input signals defined over a varying domain. A function f:𝒳(𝒟)𝒴:𝑓𝒳𝒟𝒴f:{\mathcal{X}}(\mathcal{D})\to{\mathcal{Y}}italic_f : caligraphic_X ( caligraphic_D ) → caligraphic_Y is stable to domain deformations if

f(x,Ω)f(x~,Ω~)Cxd𝒟(Ω,Ω~)norm𝑓𝑥Ω𝑓~𝑥~Ω𝐶norm𝑥subscript𝑑𝒟Ω~Ω\|f(x,\Omega)-f(\tilde{x},\tilde{\Omega})\|\leq C\|x\|d_{{\mathcal{D}}}(\Omega,\tilde{\Omega})~{}∥ italic_f ( italic_x , roman_Ω ) - italic_f ( over~ start_ARG italic_x end_ARG , over~ start_ARG roman_Ω end_ARG ) ∥ ≤ italic_C ∥ italic_x ∥ italic_d start_POSTSUBSCRIPT caligraphic_D end_POSTSUBSCRIPT ( roman_Ω , over~ start_ARG roman_Ω end_ARG ) (5)

모든 Ω,Ω~𝒟Ω~Ω𝒟\Omega,\tilde{\Omega}\in\mathcal{D}roman_Ω , over~ start_ARG roman_Ω end_ARG ∈ caligraphic_D, x𝒳(Ω)𝑥𝒳Ωx\in\mathcal{X}(\Omega)italic_x ∈ caligraphic_X ( roman_Ω )에 대하여. 우리는 등척성 변형이 중요한 역할을 하는 섹션 4.44.6에서 다양체의 맥락에서 안정성 개념에 대해 논의할 것이다. 또한, 영역 변형에 대한 안정성은 체적 형태 Gama et al. (2019)의 변형 측면에서 후자를 관찰함으로써 신호 변형에 대한 안정성의 자연스러운 일반화임을 보여줄 수 있다.

3.4 Scale Separation

변형 안정성이 전역 대칭 이전을 실질적으로 강화하지만, 차원성의 저주를 극복하는 것 자체로는 충분하지 않지만, 비공식적으로 말하면 도메인의 크기가 커짐에 따라 (4)를 존중하는 "너무 많은" 함수가 여전히 존재한다는 의미에서. 이 저주를 극복하기 위한 핵심 통찰은 물리적 작업의 멀티스케일 구조를 이용하는 것이다. 멀티스케일 표현을 설명하기 전에, 우리는 규모보다는 주파수에 의존하는 푸리에 변환의 주요 요소들을 소개할 필요가 있다.

Fourier Transform and Global invariants

363636[Uncaptioned image] Fourier basis functions have global support. As a result, local signals produce energy across all frequencies. 가장 유명한 신호 분해는 Fourier transform의 초석이다. 고전적인 1차원 푸리에 변환

x^(ξ)=+x(u)eiξudu^𝑥𝜉superscriptsubscript𝑥𝑢superscript𝑒i𝜉𝑢differential-d𝑢\hat{x}(\xi)=\int_{-\infty}^{+\infty}x(u)e^{-\mathrm{i}\xi u}\mathrm{d}uover^ start_ARG italic_x end_ARG ( italic_ξ ) = ∫ start_POSTSUBSCRIPT - ∞ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT + ∞ end_POSTSUPERSCRIPT italic_x ( italic_u ) italic_e start_POSTSUPERSCRIPT - roman_i italic_ξ italic_u end_POSTSUPERSCRIPT roman_d italic_u

expresses the function x(u)L2(Ω)𝑥𝑢superscript𝐿2Ωx(u)\in L^{2}(\Omega)italic_x ( italic_u ) ∈ italic_L start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ( roman_Ω ) on the domain Ω=Ω\Omega=\mathbb{R}roman_Ω = blackboard_R is linear combination of orthogonal oscillating basis functions φξ(u)=eiξusubscript𝜑𝜉𝑢superscript𝑒i𝜉𝑢\varphi_{\xi}(u)=e^{\mathrm{i}\xi u}italic_φ start_POSTSUBSCRIPT italic_ξ end_POSTSUBSCRIPT ( italic_u ) = italic_e start_POSTSUPERSCRIPT roman_i italic_ξ italic_u end_POSTSUPERSCRIPT, indexed by their rate of oscillation (or frequency) ξ𝜉\xiitalic_ξ. 주파수로의 그러한 조직은 신호에 대한 중요한 정보, 예를 들어 그것의 매끄러움 및 지역화를 드러낸다. 푸리에 기저 자체는 깊은 기하학적 기초를 가지며, 그 기하학적 구조와 관련된 도메인의 자연 진동으로 해석될 수 있다(예를 들어, Berger (2012) 참조).

푸리에 변환 3737(cross-)correlation(xθ)(u)=+x(v)θ(u+v)dv𝑥𝜃𝑢superscriptsubscript𝑥𝑣𝜃𝑢𝑣differential-d𝑣(x\,\star\,\theta)(u)=\int_{-\infty}^{+\infty}x(v)\theta(u+v)\mathrm{d}v( italic_x ⋆ italic_θ ) ( italic_u ) = ∫ start_POSTSUBSCRIPT - ∞ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT + ∞ end_POSTSUPERSCRIPT italic_x ( italic_v ) italic_θ ( italic_u + italic_v ) roman_d italic_vplays a crucial role in signal processing as be dual formulation of convolution,

(xθ)(u)=+x(v)θ(uv)dv𝑥𝜃𝑢superscriptsubscript𝑥𝑣𝜃𝑢𝑣differential-d𝑣(x\star\theta)(u)=\int_{-\infty}^{+\infty}x(v)\theta(u-v)\mathrm{d}v( italic_x ⋆ italic_θ ) ( italic_u ) = ∫ start_POSTSUBSCRIPT - ∞ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT + ∞ end_POSTSUPERSCRIPT italic_x ( italic_v ) italic_θ ( italic_u - italic_v ) roman_d italic_v

선형 신호 필터링의 표준 모델(이하, x𝑥xitalic_x는 신호를 나타내고 θ𝜃\thetaitalic_θ는 필터를 나타냄). 다음에서 보여주겠지만, 컨볼루션 연산자는 푸리에 기저로 대각화되어, 컨볼루션이 각각의 푸리에 변환의 곱으로 표현될 수 있게 하고,

(xθ)^(ξ)=x^(ξ)θ^(ξ),^𝑥𝜃𝜉^𝑥𝜉^𝜃𝜉\widehat{(x\star\theta)}(\xi)=\hat{x}(\xi)\cdot\hat{\theta}(\xi),over^ start_ARG ( italic_x ⋆ italic_θ ) end_ARG ( italic_ξ ) = over^ start_ARG italic_x end_ARG ( italic_ξ ) ⋅ over^ start_ARG italic_θ end_ARG ( italic_ξ ) ,

신호처리에서 컨볼루션 정리로 알려진 사실.

알고 보니, 라플라시안과 같은 많은 근본적인 미분 연산자들은 유클리드 영역에 대한 컨볼루션으로 기술되어 있다. 이러한 미분 연산자는 매우 일반적인 기하학에 대해 본질적으로 정의될 수 있기 때문에 그래프, 그룹 및 다양체를 포함하여 유클리드 영역을 넘어 푸리에 변환을 확장하는 공식 절차를 제공한다. 이에 대해서는 4.4 절에서 자세히 논의할 것이다.

푸리에 변환의 필수 측면은 신호 및 도메인의 global 속성, 예컨대 평활도 또는 컨덕턴스를 드러낸다는 것이다. 이러한 전역적 행동은 번역과 같은 도메인의 전역적 대칭이 있는 경우 편리하지만 보다 일반적인 차이를 연구하지는 않는다. 이것은 우리가 다음에 보는 바와 같이 공간 및 주파수 지역화를 거래하는 표현을 필요로 한다.

Multiscale representations

로컬 불변성의 개념은 푸리에 주파수 기반 표현에서 scale-based 표현, wavelets과 같은 다중 스케일 분해 방법의 초석이다. 383838See Mallat (1999) for a comperehensive introduction. Multi-scale 방법의 본질적인 통찰은 도메인 ΩΩ\Omegaroman_Ω에 걸쳐 정의된 함수를 로컬화된 both in space and frequency인 기본 함수로 분해하는 것이다. 393939 [Uncaptioned image] Contrary to Fourier, wavelet atoms are localised and multi-scale, allowing to capture fine details of the signal with atoms having small spatial support and coarse details with atoms having large spatial support. The term atom here is synonymous with ‘basis element’ in Fourier analysis, with the caveat that wavelets are redundant (over-complete). 웨이블릿의 경우, 이는 번역된 확장 필터(mother wavelet) ψ𝜓\psiitalic_ψ, a continuous wavelet transform이라고 불리는 결합된 spatio-frequency 표현을 생성함으로써 달성된다.

(Wψx)(u,ξ)=ξ1/2+ψ(vuξ)x(v)dv.subscript𝑊𝜓𝑥𝑢𝜉superscript𝜉12superscriptsubscript𝜓𝑣𝑢𝜉𝑥𝑣differential-d𝑣(W_{\psi}x)(u,\xi)=\xi^{-1/2}\int_{-\infty}^{+\infty}\psi\left(\frac{v-u}{\xi}\right)x(v)\mathrm{d}v.( italic_W start_POSTSUBSCRIPT italic_ψ end_POSTSUBSCRIPT italic_x ) ( italic_u , italic_ξ ) = italic_ξ start_POSTSUPERSCRIPT - 1 / 2 end_POSTSUPERSCRIPT ∫ start_POSTSUBSCRIPT - ∞ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT + ∞ end_POSTSUPERSCRIPT italic_ψ ( divide start_ARG italic_v - italic_u end_ARG start_ARG italic_ξ end_ARG ) italic_x ( italic_v ) roman_d italic_v .

번역 및 확장된 필터는 wavelet atoms이라고 하며, 이들의 공간 위치 및 확장은 웨이브렛 변환의 좌표 u𝑢uitalic_uξ𝜉\xiitalic_ξ에 해당한다. 이러한 좌표는 일반적으로 다이아딕(ξ=2j𝜉superscript2𝑗\xi=2^{-j}italic_ξ = 2 start_POSTSUPERSCRIPT - italic_j end_POSTSUPERSCRIPTu=2jk𝑢superscript2𝑗𝑘u=2^{-j}kitalic_u = 2 start_POSTSUPERSCRIPT - italic_j end_POSTSUPERSCRIPT italic_k)으로 샘플링되며, j𝑗jitalic_jscale로 지칭된다. 다중 스케일 신호 표현은 부분적 평활도와 같은 전역적 평활도를 넘어 규칙성 특성을 포착하는 측면에서 중요한 이점을 가져오며, 이는 90년대 신호 및 이미지 처리 및 수치 분석에서 인기 있는 도구로 만들었다.

Deformation stability of Multiscale representations:

푸리에 분해보다 다중스케일 국부 웨이블릿 분해의 이점은 기본 대칭 그룹 '근처'의 작은 변형의 영향을 고려할 때 드러난다. 유클리드 영역과 번역 그룹에서 이 중요한 개념을 설명해보자. 푸리에 표현은 시프트 연산자를 대각화하므로(Convolution으로 생각할 수 있으며, 섹션 4.2에서 더 자세히 볼 수 있듯이), 번역 변환을 위한 효율적인 표현이다. 그러나, 푸리에 분해는 고주파 변형 하에서 불안정하다. 반면 웨이블릿 분해는 이러한 경우에 안정적인 표현을 제공한다.

Indeed, let us consider τAut(Ω)𝜏AutΩ\tau\in\mathrm{Aut}(\Omega)italic_τ ∈ roman_Aut ( roman_Ω ) and its associated linear representation ρ(τ)𝜌𝜏\rho(\tau)italic_ρ ( italic_τ ). When τ(u)=uv𝜏𝑢𝑢𝑣\tau(u)=u-vitalic_τ ( italic_u ) = italic_u - italic_v is a shift, as we will verify in Section 4.2, the operator ρ(τ)=Sv𝜌𝜏subscript𝑆𝑣\rho(\tau)=S_{v}italic_ρ ( italic_τ ) = italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT is a shift operator that commutes with convolution. Since convolution operators are diagonalised by the Fourier transform, the action of shift in the frequency domain amounts to shifting the complex phase of the Fourier transform,

(Svx^)(ξ)=eiξvx^(ξ).^subscript𝑆𝑣𝑥𝜉superscript𝑒i𝜉𝑣^𝑥𝜉(\widehat{S_{v}x})(\xi)=e^{-\mathrm{i}\xi v}\hat{x}(\xi).( over^ start_ARG italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT italic_x end_ARG ) ( italic_ξ ) = italic_e start_POSTSUPERSCRIPT - roman_i italic_ξ italic_v end_POSTSUPERSCRIPT over^ start_ARG italic_x end_ARG ( italic_ξ ) .

Thus, the Fourier modulus f(x)=|x^|𝑓𝑥^𝑥f(x)=|\hat{x}|italic_f ( italic_x ) = | over^ start_ARG italic_x end_ARG | removing the complex phase is a simple shift-invariant function, f(Svx)=f(x)𝑓subscript𝑆𝑣𝑥𝑓𝑥f(S_{v}x)=f(x)italic_f ( italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT italic_x ) = italic_f ( italic_x ). However, if we have only approximate translation, τ(u)=uτ~(u)𝜏𝑢𝑢~𝜏𝑢\tau(u)=u-\tilde{\tau}(u)italic_τ ( italic_u ) = italic_u - over~ start_ARG italic_τ end_ARG ( italic_u ) with τ=supuΩτ~(u)ϵsubscriptnorm𝜏subscriptsupremum𝑢Ωnorm~𝜏𝑢italic-ϵ\|\nabla\tau\|_{\infty}=\sup_{u\in\Omega}\|\nabla\tilde{\tau}(u)\|\leq\epsilon∥ ∇ italic_τ ∥ start_POSTSUBSCRIPT ∞ end_POSTSUBSCRIPT = roman_sup start_POSTSUBSCRIPT italic_u ∈ roman_Ω end_POSTSUBSCRIPT ∥ ∇ over~ start_ARG italic_τ end_ARG ( italic_u ) ∥ ≤ italic_ϵ, the situation is entirely different: it is possible to show that

f(ρ(τ)x)f(x)x=𝒪(1)norm𝑓𝜌𝜏𝑥𝑓𝑥norm𝑥𝒪1\frac{\|f(\rho(\tau)x)-f(x)\|}{\|x\|}=\mathcal{O}(1)divide start_ARG ∥ italic_f ( italic_ρ ( italic_τ ) italic_x ) - italic_f ( italic_x ) ∥ end_ARG start_ARG ∥ italic_x ∥ end_ARG = caligraphic_O ( 1 )

ϵitalic-ϵ\epsilonitalic_ϵ가 얼마나 작은지에 관계없이(즉, τ𝜏\tauitalic_τ가 시프트인 것에 얼마나 가까운가). 결과적으로 이러한 푸리에 표현은 unstable under deformations이지만 작다. 이 불안정성은 일반 도메인과 비강체 변환에서 나타나며, 섹션 4.4에서 설명한 푸리에 변환의 자연 확장을 사용한 3d 도형 분석에서 이 불안정성의 또 다른 사례를 볼 것이다.

웨이블릿은 또한 다중 스케일 표현의 힘을 드러내는 이 문제에 대한 해결책을 제공한다. 상기 예에서, 웨이블릿 분해 Wψxsubscript𝑊𝜓𝑥W_{\psi}xitalic_W start_POSTSUBSCRIPT italic_ψ end_POSTSUBSCRIPT italic_xapproximately equivariant to deformations임을 (Mallat, 2012)로 나타낼 수 있고,

ρ(τ)(Wψx)Wψ(ρ(τ)x)x=𝒪(ϵ).norm𝜌𝜏subscript𝑊𝜓𝑥subscript𝑊𝜓𝜌𝜏𝑥norm𝑥𝒪italic-ϵ\frac{\|\rho(\tau)(W_{\psi}x)-W_{\psi}(\rho(\tau)x)\|}{\|x\|}=\mathcal{O}(\epsilon).divide start_ARG ∥ italic_ρ ( italic_τ ) ( italic_W start_POSTSUBSCRIPT italic_ψ end_POSTSUBSCRIPT italic_x ) - italic_W start_POSTSUBSCRIPT italic_ψ end_POSTSUBSCRIPT ( italic_ρ ( italic_τ ) italic_x ) ∥ end_ARG start_ARG ∥ italic_x ∥ end_ARG = caligraphic_O ( italic_ϵ ) .

즉, 주파수가 아닌 국부화된 필터를 사용하여 신호 정보를 스케일로 분해하면 전역적으로 불안정한 표현이 국부적으로 안정적인 특징의 패밀리로 전환된다. 중요하게도, 다른 스케일에서의 이러한 측정은 아직 불변하지 않으며, 현대 신경망의 깊은 구성 특성을 암시하면서 저주파를 향해 점진적으로 처리될 필요가 있으며, 다음에 제시된 기하학 딥 러닝을 위한 블루프린트에 캡처된다.

Scale Separation Prior:

We can build from this insight by considering a multiscale coarsening of the data domain ΩΩ\Omegaroman_Ω into a hierarchy Ω1,,ΩJsubscriptΩ1subscriptΩ𝐽\Omega_{1},\ldots,\Omega_{J}roman_Ω start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , roman_Ω start_POSTSUBSCRIPT italic_J end_POSTSUBSCRIPT. As it turns out, such coarsening can be defined on very general domains, including grids, graphs, and manifolds. Informally, a coarsening assimilates nearby points u,uΩ𝑢superscript𝑢Ωu,u^{\prime}\in\Omegaitalic_u , italic_u start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ∈ roman_Ω together, and thus only requires an appropriate notion of metric in the domain. If 𝒳j(Ωj,𝒞j):={xj:Ωj𝒞j}assignsubscript𝒳𝑗subscriptΩ𝑗subscript𝒞𝑗conditional-setsubscript𝑥𝑗subscriptΩ𝑗subscript𝒞𝑗{\mathcal{X}}_{j}(\Omega_{j},\mathcal{C}_{j}):=\{x_{j}:\Omega_{j}\to\mathcal{C}_{j}\}caligraphic_X start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ( roman_Ω start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT , caligraphic_C start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ) := { italic_x start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT : roman_Ω start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT → caligraphic_C start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT } denotes signals defined over the coarsened domain ΩjsubscriptΩ𝑗\Omega_{j}roman_Ω start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT, we informally say that a function f:𝒳(Ω)𝒴:𝑓𝒳Ω𝒴f:{\mathcal{X}}(\Omega)\to{\mathcal{Y}}italic_f : caligraphic_X ( roman_Ω ) → caligraphic_Y is locally stable at scale j𝑗jitalic_j if it admits a factorisation of the form ffjPj𝑓subscript𝑓𝑗subscript𝑃𝑗f\approx f_{j}\circ P_{j}italic_f ≈ italic_f start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ∘ italic_P start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT, where Pj:𝒳(Ω)𝒳j(Ωj):subscript𝑃𝑗𝒳Ωsubscript𝒳𝑗subscriptΩ𝑗P_{j}:{\mathcal{X}}(\Omega)\to{\mathcal{X}}_{j}(\Omega_{j})italic_P start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT : caligraphic_X ( roman_Ω ) → caligraphic_X start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ( roman_Ω start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ) is a non-linear coarse graining and fj:𝒳j(Ωj)𝒴:subscript𝑓𝑗subscript𝒳𝑗subscriptΩ𝑗𝒴f_{j}:{\mathcal{X}}_{j}(\Omega_{j})\to{\mathcal{Y}}italic_f start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT : caligraphic_X start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ( roman_Ω start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ) → caligraphic_Y. In other words, while the target function f𝑓fitalic_f might depend on complex long-range interactions between features over the whole domain, in locally-stable functions it is possible to separate the interactions across scales, by first focusing on localised interactions that are then propagated towards the coarse scales.

Refer to caption
그림 7:Illustration of Scale Separation for image classification tasks. 거친 그리드 상의 신호에 정의된 분류기 fsuperscript𝑓f^{\prime}italic_f start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT𝒳(Ω)𝒳superscriptΩ\mathcal{X}(\Omega^{\prime})caligraphic_X ( roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT )ffP𝑓superscript𝑓𝑃f\approx f^{\prime}\circ Pitalic_f ≈ italic_f start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ∘ italic_P를 만족해야 하며, 여기서 P:𝒳(Ω)𝒳(Ω):𝑃𝒳Ω𝒳superscriptΩP:\mathcal{X}(\Omega)\rightarrow\mathcal{X}(\Omega^{\prime})italic_P : caligraphic_X ( roman_Ω ) → caligraphic_X ( roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT )를 만족해야 한다.

이러한 원리41414141Fast Multipole Method (FMM)는 원래 n𝑛nitalic_n-body problems에서 롱-레인지된 힘의 계산을 빠르게 하기 위해 개발된 수치 기법이다. FMM은 가까이 놓여 있는 소스를 그룹화하여 하나의 소스로 취급한다. 은 소위 재규격화 그룹의 통계 물리학에서 나타나는 것처럼 물리학과 수학의 많은 분야에서 근본적인 중요성을 갖거나 빠른 다중극법 같은 중요한 수치 알고리즘에서 활용된다. 기계 학습에서 멀티스케일 표현 및 로컬 불변성은 Convolutional Neural Networks 및 Graph Neural Networks의 효율성을 뒷받침하는 기본 수학적 원리이며 일반적으로 local pooling의 형태로 구현된다. 향후 연구에서는 이러한 원리를 기하 영역에 걸쳐 통합하는 계산 조화 분석에서 도구를 추가로 개발하고 스케일 분리의 통계적 학습 이점을 밝힐 것이다.

3.5 The Blueprint of Geometric Deep Learning

3.13.4 섹션에서 논의된 대칭, 기하학적 안정성 및 스케일 분리의 기하학적 원리는 결합되어 고차원 데이터의 안정적인 표현을 학습하기 위한 보편적인 청사진을 제공할 수 있다. 이들 표현들은 대칭 그룹 𝔊𝔊{\mathfrak{G}}fraktur_G가 부여된 도메인 ΩΩ\Omegaroman_Ω에 정의된 신호들 𝒳(Ω,𝒞)𝒳Ω𝒞\mathcal{X}(\Omega,\mathcal{C})caligraphic_X ( roman_Ω , caligraphic_C ) 상에서 동작하는 함수들 f𝑓fitalic_f에 의해 생성될 것이다.

지금까지 설명한 기하학적 사전은 이러한 표현을 구축하기 위한 특정 architecture을 규정하지 않고 오히려 일련의 필요한 조건을 규정한다. 그러나, 그들은 이러한 기하학적 전적을 증명 가능하게 만족시키는 공리적 구성을 암시하는 한편, 그러한 전적을 만족시키는 임의의 목표 함수를 근사화할 수 있는 고도로 표현적 표현을 보장한다.

간단한 초기 관찰은, 고도로 표현적인 표현을 얻기 위해, 우리는 비선형 요소를 도입해야 하는데, f𝑓fitalic_f가 선형이고 𝔊𝔊{\mathfrak{G}}fraktur_G-불변인 경우, 모든 x𝒳(Ω)𝑥𝒳Ωx\in{\mathcal{X}}(\Omega)italic_x ∈ caligraphic_X ( roman_Ω )에 대해, 42424242여기서, μ(𝔤)𝜇𝔤\mu({\mathfrak{g}})italic_μ ( fraktur_g )Haar measure 그룹의 전체 그룹에 걸쳐 적분된다.

f(x)=1μ(𝔊)𝔊f(𝔤.x)dμ(𝔤)=f(1μ(𝔊)𝔊(𝔤.x)dμ(𝔤)),f(x)=\frac{1}{\mu({\mathfrak{G}})}\int_{{\mathfrak{G}}}f({\mathfrak{g}}.x)\mathrm{d}\mu({\mathfrak{g}})=f\left(\frac{1}{\mu({\mathfrak{G}})}\int_{{\mathfrak{G}}}({\mathfrak{g}}.x)\mathrm{d}\mu({\mathfrak{g}})\right),italic_f ( italic_x ) = divide start_ARG 1 end_ARG start_ARG italic_μ ( fraktur_G ) end_ARG ∫ start_POSTSUBSCRIPT fraktur_G end_POSTSUBSCRIPT italic_f ( fraktur_g . italic_x ) roman_d italic_μ ( fraktur_g ) = italic_f ( divide start_ARG 1 end_ARG start_ARG italic_μ ( fraktur_G ) end_ARG ∫ start_POSTSUBSCRIPT fraktur_G end_POSTSUBSCRIPT ( fraktur_g . italic_x ) roman_d italic_μ ( fraktur_g ) ) ,

이는 F𝐹Fitalic_F만이 x𝑥xitalic_x에 의존함을 나타낸다. 𝔊𝔊{\mathfrak{G}}fraktur_G-averageAx=1μ(𝔊)𝔊(𝔤.x)dμ(𝔤)A{x}=\frac{1}{\mu({\mathfrak{G}})}\int_{{\mathfrak{G}}}({\mathfrak{g}}.x)\mathrm{d}\mu({\mathfrak{g}})italic_A italic_x = divide start_ARG 1 end_ARG start_ARG italic_μ ( fraktur_G ) end_ARG ∫ start_POSTSUBSCRIPT fraktur_G end_POSTSUBSCRIPT ( fraktur_g . italic_x ) roman_d italic_μ ( fraktur_g ) 이미지 및 번역의 경우, 이는 입력의 평균 RGB 색상만을 사용하는 것을 수반할 것이다!

While this reasoning shows that the family of linear invariants is not a very rich object, the family of linear equivariants provides a much more powerful tool, since it enables the construction of rich and stable features by composition with appropriate non-linear maps, as we will now explain. Indeed, if B:𝒳(Ω,𝒞)𝒳(Ω,𝒞):𝐵𝒳Ω𝒞𝒳Ωsuperscript𝒞B:{\mathcal{X}}(\Omega,{\mathcal{C}})\to{\mathcal{X}}(\Omega,{\mathcal{C}}^{\prime})italic_B : caligraphic_X ( roman_Ω , caligraphic_C ) → caligraphic_X ( roman_Ω , caligraphic_C start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ) is 𝔊𝔊{\mathfrak{G}}fraktur_G-equivariant satisfying B(𝔤.x)=𝔤.B(x)B({\mathfrak{g}}.x)={\mathfrak{g}}.B(x)italic_B ( fraktur_g . italic_x ) = fraktur_g . italic_B ( italic_x ) for all x𝒳𝑥𝒳x\in{\mathcal{X}}italic_x ∈ caligraphic_X and 𝔤𝔊𝔤𝔊{\mathfrak{g}}\in{\mathfrak{G}}fraktur_g ∈ fraktur_G, and σ:𝒞𝒞′′:𝜎superscript𝒞superscript𝒞′′\sigma:{\mathcal{C}}^{\prime}\to{\mathcal{C}}^{\prime\prime}italic_σ : caligraphic_C start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT → caligraphic_C start_POSTSUPERSCRIPT ′ ′ end_POSTSUPERSCRIPT is an arbitrary (non-linear) map, then we easily verify that the composition U:=(𝝈B):𝒳(Ω,𝒞)𝒳(Ω,𝒞′′):assign𝑈𝝈𝐵𝒳Ω𝒞𝒳Ωsuperscript𝒞′′U:=(\bm{\sigma}\circ B):{\mathcal{X}}(\Omega,{\mathcal{C}})\to{\mathcal{X}}(\Omega,{\mathcal{C}}^{\prime\prime})italic_U := ( bold_italic_σ ∘ italic_B ) : caligraphic_X ( roman_Ω , caligraphic_C ) → caligraphic_X ( roman_Ω , caligraphic_C start_POSTSUPERSCRIPT ′ ′ end_POSTSUPERSCRIPT ) is also 𝔊𝔊{\mathfrak{G}}fraktur_G-equivariant, where 𝝈:𝒳(Ω,𝒞)𝒳(Ω,𝒞′′):𝝈𝒳Ωsuperscript𝒞𝒳Ωsuperscript𝒞′′\bm{\sigma}:{\mathcal{X}}(\Omega,{\mathcal{C}}^{\prime})\to{\mathcal{X}}(\Omega,{\mathcal{C}}^{\prime\prime})bold_italic_σ : caligraphic_X ( roman_Ω , caligraphic_C start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ) → caligraphic_X ( roman_Ω , caligraphic_C start_POSTSUPERSCRIPT ′ ′ end_POSTSUPERSCRIPT ) is the element-wise instantiation of σ𝜎\sigmaitalic_σ given as (𝝈(x))(u):=σ(x(u))assign𝝈𝑥𝑢𝜎𝑥𝑢(\bm{\sigma}(x))(u):=\sigma(x(u))( bold_italic_σ ( italic_x ) ) ( italic_u ) := italic_σ ( italic_x ( italic_u ) ).

이 간단한 성질은 그룹 평균 AU:𝒳(Ω,𝒞)𝒞′′:𝐴𝑈𝒳Ω𝒞superscript𝒞′′A\circ U:{\mathcal{X}}(\Omega,{\mathcal{C}})\to{\mathcal{C}}^{\prime\prime}italic_A ∘ italic_U : caligraphic_X ( roman_Ω , caligraphic_C ) → caligraphic_C start_POSTSUPERSCRIPT ′ ′ end_POSTSUPERSCRIPTU𝑈Uitalic_U를 구성함으로써, 𝔊𝔊{\mathfrak{G}}fraktur_G-불변의 매우 일반적인 패밀리를 정의할 수 있게 해준다. 따라서, 자연적인 질문은 임의의 𝔊𝔊{\mathfrak{G}}fraktur_G-불변 함수가, B𝐵Bitalic_Bσ𝜎\sigmaitalic_σ의 적절한 선택에 대해, 그러한 모델에 의해 임의의 정밀도로 근사화될 수 있는지 여부이다. 그룹 평균을 일반적인 비선형 불변으로 적절하게 일반화함으로써 얕은 '기하학적' 네트워크도 보편적인 근사기임을 보여주기 위해 구조화되지 않은 벡터 입력에서 표준 범용 근사 정리를 적용하는 것은 어렵지 않다. 434343Such proofs have been demonstrated, for example, for the Deep Sets model by Zaheer et al. (2017).그러나 푸리에 대 웨이브렛 불변량의 경우에서 이미 설명한 바와 같이 얕은 전역 불변량과 변형 안정성 사이에는 근본적인 장력이 존재한다. 이것은 대신 localised equivariant map을 고려하는 대체 표현에 동기를 부여합니다. 444444Meaningful metrics can be defined on grids, graphs, manifolds, and groups. A notable exception are sets, where there is no predefined notion of metric. ΩΩ\Omegaroman_Ω가 거리 메트릭 d𝑑ditalic_d를 더 갖추고 있다고 가정하면, U𝑈Uitalic_Ulocalised if (Ux)(u)𝑈𝑥𝑢(Ux)(u)( italic_U italic_x ) ( italic_u )x(v)𝑥𝑣x(v)italic_x ( italic_v ) for 𝒩u={v:d(u,v)r}subscript𝒩𝑢conditional-set𝑣𝑑𝑢𝑣𝑟\mathcal{N}_{u}=\{v:d(u,v)\leq r\}caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = { italic_v : italic_d ( italic_u , italic_v ) ≤ italic_r }, for 일부 작은 반지름 r𝑟ritalic_r의 값에만 의존하는 경우 등분산 맵 U𝑈Uitalic_Ulocalised>을 호출하고, 후자의 세트 𝒩usubscript𝒩𝑢\mathcal{N}_{u}caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPTreceptive 필드이라고 부른다.

로컬 등분산 맵 U𝑈Uitalic_U의 단일 레이어는 장거리 상호 작용으로 함수를 근사화할 수 없지만, 여러 로컬 등분산 맵 UJUJ1U1subscript𝑈𝐽subscript𝑈𝐽1subscript𝑈1U_{J}\circ U_{J-1}\dots\circ U_{1}italic_U start_POSTSUBSCRIPT italic_J end_POSTSUBSCRIPT ∘ italic_U start_POSTSUBSCRIPT italic_J - 1 end_POSTSUBSCRIPT ⋯ ∘ italic_U start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT의 구성은 로컬 등분산들의 안정성 속성을 보존하면서 수용 필드454545The term ‘receptive field’ originated in the neuroscience literature, referring to the spatial domain that affects the output of a given neuron.을 증가시킨다. 수용 필드는 도메인을 조대화(메트릭 구조를 다시 가정함)하는 다운샘플링 연산자를 인터리빙하여 다중해상도 분석(MRA, 예를 들어 Mallat (1999) 참조)으로 병렬화를 완료함으로써 더욱 증가한다.

Refer to caption
그림 8:Geometric Deep Learning Blueprint, 예시 그래프. 전형적인 그래프 신경망 아키텍처는 순열 등분산 계층(컴퓨팅 노드-와이즈 특징), 로컬 풀링(그래프 조대화) 및 순열-불변 글로벌 풀링 계층(판독 계층)을 포함할 수 있다.

요약하면, 밑줄 대칭 그룹에 대한 지식을 가진 입력 도메인의 기하학적 구조는 (i) 로컬 등분산 맵, (ii) 전역 불변 맵 및 (iii) 조대화 연산자의 세 가지 핵심 구성 요소를 제공한다. 이러한 빌딩 블록들은 우리가 Geometric Deep Learning Blueprint (그림8)로 지칭하는 스킴에서 이들을 함께 조합함으로써 규정된 불변 및 안정성 속성을 갖는 풍부한 함수 근사 공간을 제공한다.

Geometric Deep Learning Blueprint Let ΩΩ\Omegaroman_Ω and ΩsuperscriptΩ\Omega^{\prime}roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT be domains, 𝔊𝔊{\mathfrak{G}}fraktur_G a symmetry group over ΩΩ\Omegaroman_Ω, and write ΩΩsuperscriptΩΩ\Omega^{\prime}\subseteq\Omegaroman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ⊆ roman_Ω if ΩsuperscriptΩ\Omega^{\prime}roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT can be considered a compact version of ΩΩ\Omegaroman_Ω. We define the following building blocks: Linear 𝔊𝔊{\mathfrak{G}}fraktur_G-equivariant layer B:𝒳(Ω,𝒞)𝒳(Ω,𝒞):𝐵𝒳Ω𝒞𝒳superscriptΩsuperscript𝒞B:{\mathcal{X}}(\Omega,{\mathcal{C}})\to{\mathcal{X}}(\Omega^{\prime},{\mathcal{C}}^{\prime})italic_B : caligraphic_X ( roman_Ω , caligraphic_C ) → caligraphic_X ( roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT , caligraphic_C start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ) satisfying B(𝔤.x)=𝔤.B(x)B({\mathfrak{g}}.x)={\mathfrak{g}}.B(x)italic_B ( fraktur_g . italic_x ) = fraktur_g . italic_B ( italic_x ) for all 𝔤𝔊𝔤𝔊{\mathfrak{g}}\in{\mathfrak{G}}fraktur_g ∈ fraktur_G and x𝒳(Ω,𝒞)𝑥𝒳Ω𝒞x\in{\mathcal{X}}(\Omega,\mathcal{C})italic_x ∈ caligraphic_X ( roman_Ω , caligraphic_C ). Nonlinearity σ:𝒞𝒞:𝜎𝒞superscript𝒞\sigma:{\mathcal{C}}\to{\mathcal{C}}^{\prime}italic_σ : caligraphic_C → caligraphic_C start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT applied element-wise as (𝝈(x))(u)=σ(x(u))𝝈𝑥𝑢𝜎𝑥𝑢(\bm{\sigma}(x))(u)=\sigma(x(u))( bold_italic_σ ( italic_x ) ) ( italic_u ) = italic_σ ( italic_x ( italic_u ) ). Local pooling (coarsening) P:𝒳(Ω,𝒞)𝒳(Ω,𝒞):𝑃𝒳Ω𝒞𝒳superscriptΩ𝒞P:{\mathcal{X}}(\Omega,{\mathcal{C}})\rightarrow{\mathcal{X}}(\Omega^{\prime},{\mathcal{C}})italic_P : caligraphic_X ( roman_Ω , caligraphic_C ) → caligraphic_X ( roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT , caligraphic_C ), such that ΩΩsuperscriptΩΩ\Omega^{\prime}\subseteq\Omegaroman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ⊆ roman_Ω. 𝔊𝔊{\mathfrak{G}}fraktur_G-invariant layer (global pooling) A:𝒳(Ω,𝒞)𝒴:𝐴𝒳Ω𝒞𝒴A:{\mathcal{X}}(\Omega,{\mathcal{C}})\rightarrow\mathcal{Y}italic_A : caligraphic_X ( roman_Ω , caligraphic_C ) → caligraphic_Y satisfying A(𝔤.x)=A(x)A({\mathfrak{g}}.x)=A(x)italic_A ( fraktur_g . italic_x ) = italic_A ( italic_x ) for all 𝔤𝔊𝔤𝔊{\mathfrak{g}}\in{\mathfrak{G}}fraktur_g ∈ fraktur_G and x𝒳(Ω,𝒞)𝑥𝒳Ω𝒞x\in{\mathcal{X}}(\Omega,\mathcal{C})italic_x ∈ caligraphic_X ( roman_Ω , caligraphic_C ). Using these blocks allows constructing 𝔊𝔊{\mathfrak{G}}fraktur_G-invariant functions f:𝒳(Ω,𝒞)𝒴:𝑓𝒳Ω𝒞𝒴f:\mathcal{X}(\Omega,\mathcal{C})\rightarrow\mathcal{Y}italic_f : caligraphic_X ( roman_Ω , caligraphic_C ) → caligraphic_Y of the form f = A ∘σ_J ∘B_J ∘P_J-1 ∘…∘P_1 ∘σ_1 ∘B_1 where the blocks are selected such that the output space of each block matches the input space of the next one. Different blocks may exploit different choices of symmetry groups 𝔊𝔊{\mathfrak{G}}fraktur_G.

Different settings of Geometric Deep Learning

하나는 도메인 ΩΩ\Omegaroman_Ωfixed로 가정될 때 설정을 중요하게 구별할 수 있으며, 하나는 해당 도메인에 정의된 다양한 입력 신호에만 관심이 있거나, 도메인이 그 도메인에 정의된 신호와 함께 varies로 입력의 일부이다. 이전 사례의 고전적인 사례는 이미지가 고정된 도메인(그리드)에 정의된 것으로 가정되는 컴퓨터 비전 애플리케이션에서 마주친다. 그래프 분류는 후자의 설정의 예로서, 그래프의 구조뿐만 아니라 그것에 정의된 신호(예를 들어, 노드 특징들)가 모두 중요하다. 다양한 도메인의 경우 기하학적 안정성(ΩΩ\Omegaroman_Ω의 변형에 둔감한 의미)이 기하학 딥 러닝 아키텍처에서 중요한 역할을 한다.

이 설계도는 광범위한 기하학 영역에 걸쳐 사용할 수 있는 적절한 수준의 일반성을 가지고 있다. 따라서 상이한 기하학적 딥 러닝 방법들은 도메인, 대칭 그룹, 및 전술한 빌딩 블록들의 특정 구현 세부사항들의 선택에서 상이하다. 다음에서 볼 수 있듯이 현재 사용 중인 대규모 딥러닝 아키텍처는 이 스킴에 속하며 따라서 공통 기하 원리에서 파생될 수 있다.

다음 섹션들 (4.14.6)에서는 ‘5G’를 중심으로 다양한 기하학적 도메인들을 설명하고, 섹션들 5.15.8에서는 이러한 도메인들에 대한 Geometric Deep Learning의 구체적인 구현들을 설명한다.

Architecture Domain Ωnormal-Ω\Omegaroman_Ω Symmetry group 𝔊𝔊\mathfrak{G}fraktur_G
CNN Grid Translation
Spherical CNN Sphere / SO(3)SO3\mathrm{SO}({3})roman_SO ( 3 ) Rotation SO(3)SO3\mathrm{SO}({3})roman_SO ( 3 )
Intrinsic / Mesh CNN Manifold Isometry Iso(Ω)IsoΩ\mathrm{Iso}(\Omega)roman_Iso ( roman_Ω ) /
Gauge symmetry SO(2)SO2\mathrm{SO}(2)roman_SO ( 2 )
GNN Graph Permutation ΣnsubscriptΣ𝑛\Sigma_{n}roman_Σ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT
Deep Sets Set Permutation ΣnsubscriptΣ𝑛\Sigma_{n}roman_Σ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT
Transformer Complete Graph Permutation ΣnsubscriptΣ𝑛\Sigma_{n}roman_Σ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT
LSTM 1D Grid Time warping

4 Geometric Domains: the 5 Gs

우리 텍스트의 주요 초점은 그래프, 그리드, 그룹, 측지선 및 게이지에 있습니다. 이러한 맥락에서, '그룹'에 의해 우리는 동질 공간에서 전역 대칭 변환을 의미하고, 다양체의 '지오데식스' 메트릭 구조에 의해, 그리고 접선 번들(및 일반적으로 벡터 번들)에 정의된 '게이즈' 로컬 참조 프레임에 의해 의미된다. 이러한 개념들은 추후 보다 상세히 설명될 것이다. 다음 절에서는 공통의 주요 요소와 이러한 구조 사이의 주요 구별 특징에 대해 자세히 논의하고 이와 관련된 대칭 그룹을 설명한다. 우리의 설명은 일반성의 순서가 아니라, 사실 그리드는 특정한 그래프의 경우이지만, 기하 딥러닝 청사진의 기초가 되는 중요한 개념을 강조하는 방법이다.

Refer to caption
Figure 9:The 5G of Geometric Deep Learning:Grids, group & homogeneous spaces with global symmetry, graph, geodesics & metrics on manifolds, and gauges (frames for tangent or feature spaces)

4.1 Graphs and Sets

사회학에서 입자 물리학에 이르기까지 과학의 여러 분야에서 그래프는 관계와 상호 작용 시스템의 모델로 사용된다. 우리의 관점에서 그래프는 순열 그룹으로 모델링된 매우 기본적인 유형의 불변성을 발생시킨다. 더욱이, 격자 및 집합과 같은 우리에게 관심있는 다른 객체들은 그래프의 특정한 경우로서 획득될 수 있다.

A graph 𝒢=(𝒱,)𝒢𝒱{\mathcal{G}}=({\mathcal{V}},{\mathcal{E}})caligraphic_G = ( caligraphic_V , caligraphic_E )nodes464646Depending on the application field, nodes may also be called vertices, and edges are often referred to as links or relations. We will use these terms interchangeably.𝒱𝒱{\mathcal{V}}caligraphic_Vedges 𝒱×𝒱𝒱𝒱{\mathcal{E}}\subseteq{\mathcal{V}}\times{\mathcal{V}}caligraphic_E ⊆ caligraphic_V × caligraphic_V의 집합이다. 다음 논의의 목적을 위해, 우리는 더 나아가, s𝑠sitalic_s-dimensional node features,𝐱usubscript𝐱𝑢\mathbf{x}_{u}bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT로 표기된 모든 u𝒱𝑢𝒱u\in{\mathcal{V}}italic_u ∈ caligraphic_V로 가정한다. 소셜 네트워크는 아마도 가장 일반적으로 연구되는 그래프의 예 중 하나이며, 여기서 노드는 사용자를 나타내고, 에지는 그들 사이의 우정 관계에 해당하며, 노드는 나이, 프로필 사진 등과 같은 모델 사용자 속성을 특징으로 한다. 간선 또는 전체 그래프에 기능을 부여하는 것도 종종 가능하지만, 474747 [Uncaptioned image] Isomorphism is an edge-preserving bijection between two graphs. Two isomorphic graphs shown here are identical up to reordering of their nodes. 이 이 섹션의 주요 결과를 변경하지 않기 때문에 향후 작업으로 논의를 연기할 것이다.

그래프들의 주요 구조적 성질은 𝒱𝒱{\mathcal{V}}caligraphic_V의 노드들은 보통 임의의 특정한 순서로 제공되는 것으로 가정되지 않으며, 따라서 그래프들에 대해 수행되는 임의의 동작들은 노드들의 순서화에 의존하지 않아야 한다는 것이다. 그래프에 작용하는 함수가 만족해야 하는 바람직한 속성은 따라서 permutation invariance이며, 이는 두 개의 isomorphic 그래프에 대해 이러한 함수의 결과가 동일함을 의미한다. 이를 우리의 청사진의 특정 설정으로 볼 수 있는데, 여기서 도메인 Ω=𝒢Ω𝒢\Omega=\mathcal{G}roman_Ω = caligraphic_G와 공간 𝒳(𝒢,d)𝒳𝒢superscript𝑑\mathcal{X}(\mathcal{G},\mathbb{R}^{d})caligraphic_X ( caligraphic_G , blackboard_R start_POSTSUPERSCRIPT italic_d end_POSTSUPERSCRIPT )d𝑑ditalic_d-dimensional node-wise signal의 설정이다. 우리가 고려하는 대칭성은 permutation group 𝔊=Σn𝔊subscriptΣ𝑛\mathfrak{G}=\Sigma_{n}fraktur_G = roman_Σ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT에 의해 주어지며, 이들의 요소는 모두 노드 인덱스 집합 {1,,n}1𝑛\{1,\ldots,n\}{ 1 , … , italic_n }의 가능한 순서이다.

먼저 sets, 에지가 없는 그래프의 특수한 경우(즉, ={\mathcal{E}}=\emptysetcaligraphic_E = ∅)에 대한 순열 불변 개념을 설명한다. n×d𝑛𝑑n\times ditalic_n × italic_d 행렬 𝐗=(𝐱1,,𝐱n)𝐗superscriptsubscript𝐱1subscript𝐱𝑛top\mathbf{X}=(\mathbf{x}_{1},\ldots,\mathbf{x}_{n})^{\top}bold_X = ( bold_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , bold_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT의 행으로 노드 특징을 쌓음으로써 노드의 순서를 효과적으로 지정할 수 있다. 노드의 집합에 대한 순열 𝔤Σn𝔤subscriptΣ𝑛\mathfrak{g}\in\Sigma_{n}fraktur_g ∈ roman_Σ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT의 작용은 n×n𝑛𝑛n\times nitalic_n × italic_n 순열 행렬 ρ(𝔤)=𝐏𝜌𝔤𝐏\rho(\mathfrak{g})=\mathbf{P}italic_ρ ( fraktur_g ) = bold_P, 4848484848 그러한 순열이 정확히 n!𝑛n!italic_n ! 존재하므로, ΣnsubscriptΣ𝑛\Sigma_{n}roman_Σ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT는 적당한 여기서 각 행과 열은 정확히 하나의 1111를 포함하고 나머지 모든 엔트리는 0이다.

A function f𝑓fitalic_f operating on this set is then said to be permutation invariant if, for any such permutation matrix 𝐏𝐏{\bf P}bold_P, it holds that f(𝐏𝐗)=f(𝐗)𝑓𝐏𝐗𝑓𝐗f({\bf P}{\bf X})=f({\bf X})italic_f ( bold_PX ) = italic_f ( bold_X ). One simple such function is

f(𝐗)=ϕ(u𝒱ψ(𝐱u)),𝑓𝐗italic-ϕsubscript𝑢𝒱𝜓subscript𝐱𝑢f({\bf X})=\phi\left(\sum_{u\in{\mathcal{V}}}\psi\left(\mathbf{x}_{u}\right)\right)~{},italic_f ( bold_X ) = italic_ϕ ( ∑ start_POSTSUBSCRIPT italic_u ∈ caligraphic_V end_POSTSUBSCRIPT italic_ψ ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ) ) , (6)

여기서 함수 ψ𝜓\psiitalic_ψ는 모든 노드의 기능에 독립적으로 적용되고, ϕitalic-ϕ\phiitalic_ϕ는 그 sum-aggregated 출력들: 합이 그 입력이 제공되는 순서와 무관하기 때문에, 그러한 함수는 노드 세트의 순열에 대해 불변하며, 따라서 노드들이 어떻게 순열되더라도 항상 동일한 출력을 반환하도록 보장된다.

위와 같은 함수는 '글로벌' 그래프 단위 출력을 제공하지만, 매우 자주 우리는 노드 단위 방식으로 '로컬'로 작동하는 함수에 관심을 가질 것이다. 예를 들어, 모든 노드에서 특성인 update에 일부 함수를 적용하여 latent 노드 특성의 집합을 얻을 수 있습니다. 이러한 잠재 피쳐를 행렬 𝐇=𝐅(𝐗)𝐇𝐅𝐗\mathbf{H}=\mathbf{F}({\bf X})bold_H = bold_F ( bold_X )49494949우리는 함수 𝐅(𝐗)𝐅𝐗\mathbf{F}(\mathbf{X})bold_F ( bold_X )에 굵은 표기법을 사용하여 노드별 벡터 피쳐를 출력하므로 행렬 값 함수입니다. is no permutation invariant: 𝐇𝐇{\bf H}bold_H의 행의 순서는 tied to the rows of 𝐗𝐗{\bf X}bold_X이므로 어떤 출력 노드 특징이 어떤 입력 노드에 해당하는지를 알 수 있다. 대신 permutation equivariance의 더 세밀한 개념이 필요하며, 일단 입력의 순열에 "커밋"하면 결과 객체를 일관되게 순열한다. 형식적으로, 𝐅(𝐗)𝐅𝐗\mathbf{F}(\mathbf{X})bold_F ( bold_X )permutation equivariant function if, any permutation matrix 𝐏𝐏{\bf P}bold_P, 𝐅(𝐏𝐗)=𝐏𝐅(𝐗)𝐅𝐏𝐗𝐏𝐅𝐗\mathbf{F}({\bf P}{\bf X})={\bf P}\mathbf{F}({\bf X})bold_F ( bold_PX ) = bold_PF ( bold_X )라고 가정한다. 공유 노드별 선형 변환

𝐅𝚯(𝐗)=𝐗𝚯subscript𝐅𝚯𝐗𝐗𝚯\mathbf{F}_{\mathbf{\Theta}}({\bf X})={\bf X}{\mathbf{\Theta}}bold_F start_POSTSUBSCRIPT bold_Θ end_POSTSUBSCRIPT ( bold_X ) = bold_X bold_Θ (7)

가중치 행렬 𝚯d×d𝚯superscript𝑑superscript𝑑\mathbf{\Theta}\in\mathbb{R}^{d\times d^{\prime}}bold_Θ ∈ blackboard_R start_POSTSUPERSCRIPT italic_d × italic_d start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT end_POSTSUPERSCRIPT로 지정되는 것은 이러한 순열 등분산 함수의 한 가지 가능한 구성으로서, 𝐡u=𝚯𝐱usubscript𝐡𝑢superscript𝚯topsubscript𝐱𝑢\mathbf{h}_{u}=\bm{\Theta}^{\top}\mathbf{x}_{u}bold_h start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = bold_Θ start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT 형태의 잠재 특징을 생성한다.

이 구조는 기하학 딥 러닝 청사진에서 자연스럽게 발생합니다. 먼저 linear equivariants(형태 𝐅𝐏𝐗=𝐏𝐅𝐗𝐅𝐏𝐗𝐏𝐅𝐗\mathbf{F}{\bf PX}=\bf{P}\mathbf{FX}bold_FPX = bold_PFX의 함수)를 특성화할 수 있으며, 이러한 맵이 두 generators, identity 𝐅1𝐗=𝐗subscript𝐅1𝐗𝐗\mathbf{F}_{1}\mathbf{X}={\bf X}bold_F start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT bold_X = bold_X 및 average 𝐅2𝐗=1n𝟏𝟏𝐗=1nu=1n𝐱usubscript𝐅2𝐗1𝑛superscript11top𝐗1𝑛superscriptsubscript𝑢1𝑛subscript𝐱𝑢{\mathbf{F}_{2}\mathbf{X}}=\frac{1}{n}\bm{1}\bm{1}^{\top}\mathbf{X}=\frac{1}{n}\sum_{u=1}^{n}{\bf x}_{u}bold_F start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT bold_X = divide start_ARG 1 end_ARG start_ARG italic_n end_ARG bold_11 start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT bold_X = divide start_ARG 1 end_ARG start_ARG italic_n end_ARG ∑ start_POSTSUBSCRIPT italic_u = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPT bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT의 선형 조합으로 작성될 수 있음을 쉽게 확인할 수 있다. 5.4절에서 설명하는 바와 같이, 인기 있는 Deep Sets (Zaheer et al., 2017) 아키텍처는 정확하게 이 청사진을 따른다.

We can now generalise the notions of permutation invariance and equivariance from sets to graphs. In the generic setting {\mathcal{E}}\neq\emptysetcaligraphic_E ≠ ∅, the graph connectivity can be represented by the n×n𝑛𝑛n\times nitalic_n × italic_n adjacency matrix 𝐀𝐀\mathbf{A}bold_A,505050When the graph is undirected, i.e. (u,v)𝑢𝑣(u,v)\in{\mathcal{E}}( italic_u , italic_v ) ∈ caligraphic_E iff (v,u)𝑣𝑢(v,u)\in{\mathcal{E}}( italic_v , italic_u ) ∈ caligraphic_E, the adjacency matrix is symmetric, 𝐀=𝐀𝐀superscript𝐀top\mathbf{A}=\mathbf{A}^{\top}bold_A = bold_A start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT. defined as

auv={1(u,v)0otherwise.subscript𝑎𝑢𝑣cases1𝑢𝑣0otherwisea_{uv}=\begin{cases}1&(u,v)\in{\mathcal{E}}\\ 0&\text{otherwise}.\end{cases}italic_a start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT = { start_ROW start_CELL 1 end_CELL start_CELL ( italic_u , italic_v ) ∈ caligraphic_E end_CELL end_ROW start_ROW start_CELL 0 end_CELL start_CELL otherwise . end_CELL end_ROW (8)

이제 인접성 및 특징 매트릭스 𝐀𝐀\mathbf{A}bold_A𝐗𝐗\mathbf{X}bold_X는 "동기화되어 있음", auvsubscript𝑎𝑢𝑣a_{uv}italic_a start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPTu𝑢uitalic_uth 및 v𝑣vitalic_v𝐗𝐗\mathbf{X}bold_Xth 행에 의해 설명되는 노드 사이의 인접성 정보를 특정한다는 점에 유의한다. 따라서, 노드 특징들 𝐗𝐗\mathbf{X}bold_X에 순열 행렬 𝐏𝐏\mathbf{P}bold_P를 적용하는 것은 자동으로 𝐀𝐀\mathbf{A}bold_A의 행들 및 열들, 𝐏𝐀𝐏superscript𝐏𝐀𝐏top\mathbf{P}\mathbf{A}\mathbf{P}^{\top}bold_PAP start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT에 적용하는 것을 의미한다. 51515151𝐏𝐀𝐏superscript𝐏𝐀𝐏top\mathbf{P}\mathbf{A}\mathbf{P}^{\top}bold_PAP start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT는 행렬에 작용하는 ΣnsubscriptΣ𝑛\Sigma_{n}roman_Σ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT의 표현이다. 우리는 (그래프별 함수) f𝑓fitalic_fpermutation invariant if

f(𝐏𝐗,𝐏𝐀𝐏)=f(𝐗,𝐀)𝑓𝐏𝐗superscript𝐏𝐀𝐏top𝑓𝐗𝐀f({\bf PX},{\bf PAP}^{\top})=f({\bf X},{\bf A})italic_f ( bold_PX , bold_PAP start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT ) = italic_f ( bold_X , bold_A ) (9)

and (a node-wise function) 𝐅𝐅\mathbf{F}bold_F is permutation equivariant if

𝐅(𝐏𝐗,𝐏𝐀𝐏)=𝐏𝐅(𝐗,𝐀)𝐅𝐏𝐗superscript𝐏𝐀𝐏top𝐏𝐅𝐗𝐀\mathbf{F}({\bf PX},{\bf PAP}^{\top})={\bf P}\mathbf{F}({\bf X},{\bf A})bold_F ( bold_PX , bold_PAP start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT ) = bold_PF ( bold_X , bold_A ) (10)

for any permutation matrix 𝐏𝐏{\bf P}bold_P.

여기서 다시, 우리는 먼저 선형 등분산 함수들을 특성화할 수 있다. 535353이는 Bell numberB4subscript𝐵4B_{4}italic_B start_POSTSUBSCRIPT 4 end_POSTSUBSCRIPT elements의 집합을 분할하기 위한 방법의 수를 카운트하는 4444 elements의 집합을 분할하기 위한 방법의 수를 카운트하는 (u,v),(u,v)𝑢𝑣superscript𝑢superscript𝑣(u,v),(u^{\prime},v^{\prime})( italic_u , italic_v ) , ( italic_u start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT , italic_v start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT )인덱싱하는 인덱싱하는 (u,v),(u,v)𝑢𝑣superscript𝑢superscript𝑣(u,v),(u^{\prime},v^{\prime})( italic_u , italic_v ) , ( italic_u start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT , italic_v start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT )인덱싱하는 인덱싱하는 인덱싱하는 인덱싱하는 인덱싱하는 인덱싱하는 인덱싱하는 인덱 As observed by Maron et al. (2018), any linear 𝐅𝐅\mathbf{F}bold_F satisfying equation (10)는 15개의 linear generator의 linear combination으로 표현될 수 있다. 놀랍게도, 이 generator의 패밀리는 independent of n𝑛nitalic_n이다. 이러한 생성기 중에서 우리의 청사진은 특히 local, 즉 노드 u𝑢uitalic_u의 출력이 그래프의 이웃 노드에 직접 의존한다. 우리는 노드가 다른 노드에 이웃한다는 것이 무엇을 의미하는지 정의함으로써 모델 구성에서 이 제약을 명시적으로 공식화할 수 있다.

A (undirected) neighbourhood of node u𝑢uitalic_u sometimes also also called 1-hop545454 Often, the node u𝑢uitalic_u itself is its own neighbourhood.

𝒩u={v:(u,v)or(v,u)}subscript𝒩𝑢conditional-set𝑣𝑢𝑣or𝑣𝑢\mathcal{N}_{u}=\{v:(u,v)\in{\mathcal{E}}\,\mathrm{or}\,(v,u)\in{\mathcal{E}}\}caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = { italic_v : ( italic_u , italic_v ) ∈ caligraphic_E roman_or ( italic_v , italic_u ) ∈ caligraphic_E } (11)

and the neighbourhood features as the multiset

𝐗𝒩u={{𝐱v:v𝒩u}}.subscript𝐗subscript𝒩𝑢conditional-setsubscript𝐱𝑣𝑣subscript𝒩𝑢\mathbf{X}_{\mathcal{N}_{u}}=\{\mskip-5.0mu\{\mathbf{x}_{v}:v\in\mathcal{N}_{u}\}\mskip-5.0mu\}.bold_X start_POSTSUBSCRIPT caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT end_POSTSUBSCRIPT = { { bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT : italic_v ∈ caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT } } . (12)

1-홉 이웃에서 작동하는 것은 청사진의 locality 측면과 잘 일치합니다. 즉, 그래프를 통해 메트릭을 \mathcal{E}caligraphic_E에서 에지를 사용하는 노드 간의 shortest path distance로 정의합니다.

따라서 GDL 설계도는 노드 및 그 이웃, ϕ(𝐱u,𝐗𝒩u)italic-ϕsubscript𝐱𝑢subscript𝐗subscript𝒩𝑢\phi(\mathbf{x}_{u},\mathbf{X}_{\mathcal{N}_{u}})italic_ϕ ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_X start_POSTSUBSCRIPT caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT end_POSTSUBSCRIPT )의 기능을 통해 작동하는 local 함수 ϕitalic-ϕ\phiitalic_ϕ를 지정함으로써 그래프에서 순열 등분산 함수를 구성하기 위한 일반적인 레시피를 산출한다. 그런 다음, 격리된 모든 노드의 이웃에 ϕitalic-ϕ\phiitalic_ϕ를 적용하여 순열 등분산 함수 𝐅𝐅\mathbf{F}bold_F를 구성할 수 있다(도 10 참조):

𝐅(𝐗,𝐀)=[ϕ(𝐱1,𝐗𝒩1)ϕ(𝐱2,𝐗𝒩2)ϕ(𝐱n,𝐗𝒩n)]𝐅𝐗𝐀delimited-[]missing-subexpressionitalic-ϕsubscript𝐱1subscript𝐗subscript𝒩1missing-subexpressionmissing-subexpressionitalic-ϕsubscript𝐱2subscript𝐗subscript𝒩2missing-subexpressionmissing-subexpressionmissing-subexpressionmissing-subexpressionitalic-ϕsubscript𝐱𝑛subscript𝐗subscript𝒩𝑛missing-subexpression\mathbf{F}({\bf X},{\bf A})=\left[\begin{array}[]{ccc}\rule[2.15277pt]{10.76385pt}{0.5pt}&\phi(\mathbf{x}_{1},\mathbf{X}_{\mathcal{N}_{1}})&\rule[2.15277pt]{10.76385pt}{0.5pt}\\ \rule[2.15277pt]{10.76385pt}{0.5pt}&\phi(\mathbf{x}_{2},\mathbf{X}_{\mathcal{N}_{2}})&\rule[2.15277pt]{10.76385pt}{0.5pt}\\ &\vdots&\\ \rule[2.15277pt]{10.76385pt}{0.5pt}&\phi(\mathbf{x}_{n},\mathbf{X}_{\mathcal{N}_{n}})&\rule[2.15277pt]{10.76385pt}{0.5pt}\end{array}\right]bold_F ( bold_X , bold_A ) = [ start_ARRAY start_ROW start_CELL end_CELL start_CELL italic_ϕ ( bold_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , bold_X start_POSTSUBSCRIPT caligraphic_N start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_POSTSUBSCRIPT ) end_CELL start_CELL end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL italic_ϕ ( bold_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , bold_X start_POSTSUBSCRIPT caligraphic_N start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT end_POSTSUBSCRIPT ) end_CELL start_CELL end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL ⋮ end_CELL start_CELL end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL italic_ϕ ( bold_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT , bold_X start_POSTSUBSCRIPT caligraphic_N start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_POSTSUBSCRIPT ) end_CELL start_CELL end_CELL end_ROW end_ARRAY ] (13)

𝐅𝐅\mathbf{F}bold_F가 각 노드에 로컬로 공유 함수 ϕitalic-ϕ\phiitalic_ϕ를 적용하여 구성됨에 따라, 그 순열 등분성은 ϕitalic-ϕ\phiitalic_ϕ의 출력이 𝒩usubscript𝒩𝑢\mathcal{N}_{u}caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT의 노드의 순서에 독립적이다. 따라서, ϕitalic-ϕ\phiitalic_ϕ가 순열 불변으로 구축되면, 이 속성은 만족된다. 향후 연구에서 살펴보겠지만 ϕitalic-ϕ\phiitalic_ϕ의 선택은 이러한 스킴의 표현력에 결정적인 역할을 한다. ϕitalic-ϕ\phiitalic_ϕ가 주입식일 때, 두 그래프가 반복적 색상 정제 절차에 의해 동형이 되기 위한 필수 조건을 제공하는 그래프 이론의 고전적인 알고리즘인 Weisfeiler-Lehman 그래프 동형 테스트의 한 단계와 동일하다.

Refer to caption
그림 10:모든 이웃에 permutation-invariant 함수 ϕitalic-ϕ\phiitalic_ϕ를 적용하여 그래프 위에 permutation-equivariant 함수를 구성하는 예시. 이 경우, ϕitalic-ϕ\phiitalic_ϕ는 노드 b𝑏bitalic_b의 특징들 𝐱bsubscript𝐱𝑏\mathbf{x}_{b}bold_x start_POSTSUBSCRIPT italic_b end_POSTSUBSCRIPT뿐만 아니라 자신의 이웃 특징들의 멀티셋인 𝐗𝒩b={{𝐱a,𝐱b,𝐱c,𝐱d,𝐱e}}subscript𝐗subscript𝒩𝑏subscript𝐱𝑎subscript𝐱𝑏subscript𝐱𝑐subscript𝐱𝑑subscript𝐱𝑒\mathbf{X}_{\mathcal{N}_{b}}=\{\mskip-5.0mu\{\mathbf{x}_{a},\mathbf{x}_{b},\mathbf{x}_{c},\mathbf{x}_{d},\mathbf{x}_{e}\}\mskip-5.0mu\}bold_X start_POSTSUBSCRIPT caligraphic_N start_POSTSUBSCRIPT italic_b end_POSTSUBSCRIPT end_POSTSUBSCRIPT = { { bold_x start_POSTSUBSCRIPT italic_a end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_b end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_d end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT } }에도 적용된다. 모든 노드의 이웃에 이러한 방식으로 ϕitalic-ϕ\phiitalic_ϕ를 적용하면, 레이턴트 특징의 결과 행렬의 행 𝐇=𝐅(𝐗,𝐀)𝐇𝐅𝐗𝐀\mathbf{H}=\mathbf{F}(\mathbf{X},\mathbf{A})bold_H = bold_F ( bold_X , bold_A )가 복원된다.

이 예에서 집합에 정의된 함수와 보다 일반적인 그래프 사이의 차이는 후자의 경우 도메인의 구조를 명시적으로 설명할 필요가 있다는 점도 주목할 가치가 있다. 그 결과, 그래프는 머신 러닝 문제에서 도메인이 입력의 일부이 된다는 의미에서 구별되지만, 세트 및 그리드(두 그래프의 특정 경우)를 처리할 때 피쳐만 지정하고 도메인을 fixed으로 가정할 수 있습니다. 이러한 구분은 우리의 논의에서 반복되는 모티브가 될 것이다. 그 결과, 그래프에 대한 대부분의 학습 문제에서 기하학적 안정성(영역 변형에 대한 불변) 개념이 매우 중요하다. 순열 불변 및 등분산 함수가 동형(위상-등가) 그래프에서 동일한 출력을 생성한다는 것은 우리의 구성에서 쉽게 따른다. 이러한 결과는 대략적인 동형 그래프로 일반화될 수 있으며, 그래프 섭동 하에서 안정성에 대한 몇 가지 결과는 (Levie et al., 2018)가 존재한다. 우리는 다양체에 대한 논의에서 이 중요한 지점으로 돌아갈 것이며, 우리는 그러한 불변성을 더 자세히 연구하기 위한 수단으로 사용할 것이다.

둘째, 그래프와 그리드는 추가적인 구조로 인해 집합과 달리 단순하지 않은 방식565656More precisely, we cannot define a non-trivial coarsening assuming set structure alone. There exist established approaches that infer topological structure from unordered sets, and those can admit non-trivial coarsening.으로 조대화될 수 있어 다양한 풀링 연산이 발생한다.

4.2 Grids and Euclidean spaces

우리가 고려하는 두 번째 유형의 객체는 그리드입니다. 딥러닝의 영향은 컴퓨터 비전, 자연어 처리, 음성 인식 등에서 특히 극적이었다고 해도 과언이 아니다. 이러한 응용 프로그램은 모두 기본 그리드 구조라는 기하학적 공통 분모를 공유합니다. 이미 언급했듯이 그리드는 특별한 인접성을 가진 그래프의 특수한 경우이다. 그러나 그리드 내의 노드들의 순서는 고정되어 있기 때문에, 그리드 상에 정의된 신호들에 대한 머신 러닝 모델들은 더 이상 순열 불변성을 설명할 필요가 없으며, 보다 강한 기하학적 선행인 변환 불변성을 갖는다.

Circulant matrices and Convolutions

Let us dwell on this point in more detail. Assuming for simplicity periodic boundary conditions, we can think of a one-dimensional grid as a ring graph575757 [Uncaptioned image] with nodes indexed by 0,1,,n101𝑛10,1,\ldots,n-10 , 1 , … , italic_n - 1 modulo n𝑛nitalic_n (which we will omit for notation brevity) and the adjacency matrix with elements au,u+1modn=1subscript𝑎𝑢𝑢1mod𝑛1a_{u,u+1\,\mathrm{mod}\,n}=1italic_a start_POSTSUBSCRIPT italic_u , italic_u + 1 roman_mod italic_n end_POSTSUBSCRIPT = 1 and zero otherwise. There are two main differences from the general graph case we have discussed before. First, each node u𝑢uitalic_u has identical connectivity, to its neighbours u1𝑢1u-1italic_u - 1 and u+1𝑢1u+1italic_u + 1, and thus structure-wise indistinguishable from the others. 585858As we will see later, this makes the grid a homogeneous space. Second and more importantly, since the nodes of the grid have a fixed ordering, we also have a fixed ordering of the neighbours: we can call u1𝑢1u-1italic_u - 1 the ‘left neighbour’ and u+1𝑢1u+1italic_u + 1 the ‘right neighbour’. If we use our previous recipe for designing a equivariant function 𝐅𝐅\mathbf{F}bold_F using a local aggregation function ϕitalic-ϕ\phiitalic_ϕ, we now have 𝐟(𝐱u)=ϕ(𝐱u1,𝐱u,𝐱u+1)𝐟subscript𝐱𝑢italic-ϕsubscript𝐱𝑢1subscript𝐱𝑢subscript𝐱𝑢1\mathbf{f}(\mathbf{x}_{u})=\phi(\mathbf{x}_{u-1},\mathbf{x}_{u},\mathbf{x}_{u+1})bold_f ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ) = italic_ϕ ( bold_x start_POSTSUBSCRIPT italic_u - 1 end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_u + 1 end_POSTSUBSCRIPT ) at every node of the grid: ϕitalic-ϕ\phiitalic_ϕ does not need to be permutation invariant anymore. For a particular choice of a linear transformation ϕ(𝐱u1,𝐱u,𝐱u+1)=θ1𝐱u1+θ0𝐱u+θ1𝐱u+1italic-ϕsubscript𝐱𝑢1subscript𝐱𝑢subscript𝐱𝑢1subscript𝜃1subscript𝐱𝑢1subscript𝜃0subscript𝐱𝑢subscript𝜃1subscript𝐱𝑢1\phi(\mathbf{x}_{u-1},\mathbf{x}_{u},\mathbf{x}_{u+1})=\theta_{-1}\mathbf{x}_{u-1}+\theta_{0}\mathbf{x}_{u}+\theta_{1}\mathbf{x}_{u+1}italic_ϕ ( bold_x start_POSTSUBSCRIPT italic_u - 1 end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_u + 1 end_POSTSUBSCRIPT ) = italic_θ start_POSTSUBSCRIPT - 1 end_POSTSUBSCRIPT bold_x start_POSTSUBSCRIPT italic_u - 1 end_POSTSUBSCRIPT + italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT + italic_θ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT bold_x start_POSTSUBSCRIPT italic_u + 1 end_POSTSUBSCRIPT, we can write 𝐅(𝐗)𝐅𝐗\mathbf{F}(\mathbf{X})bold_F ( bold_X ) as a matrix product,

𝐅(𝐗)=[θ0θ1θ1θ1θ0θ1θ1θ0θ1θ1θ1θ0][𝐱0𝐱1𝐱n2𝐱n1]𝐅𝐗delimited-[]subscript𝜃0subscript𝜃1missing-subexpressionmissing-subexpressionsubscript𝜃1subscript𝜃1subscript𝜃0subscript𝜃1missing-subexpressionmissing-subexpressionmissing-subexpressionmissing-subexpressionmissing-subexpressionmissing-subexpressionsubscript𝜃1subscript𝜃0subscript𝜃1subscript𝜃1missing-subexpressionmissing-subexpressionsubscript𝜃1subscript𝜃0delimited-[]missing-subexpressionsubscript𝐱0missing-subexpressionmissing-subexpressionsubscript𝐱1missing-subexpressionmissing-subexpressionmissing-subexpressionmissing-subexpressionsubscript𝐱𝑛2missing-subexpressionmissing-subexpressionsubscript𝐱𝑛1missing-subexpression\mathbf{F}(\mathbf{X})=\left[\begin{array}[]{ccccc}\theta_{0}&\theta_{1}&&&\theta_{-1}\\ \theta_{-1}&\theta_{0}&\theta_{1}&&\\ &\ddots&\ddots&\ddots&\\ &&\theta_{-1}&\theta_{0}&\theta_{1}\\ \theta_{1}&&&\theta_{-1}&\theta_{0}\par\end{array}\right]\left[\begin{array}[]{ccc}\rule[2.15277pt]{10.76385pt}{0.5pt}&\mathbf{x}_{0}&\rule[2.15277pt]{10.76385pt}{0.5pt}\\ \rule[2.15277pt]{10.76385pt}{0.5pt}&\mathbf{x}_{1}&\rule[2.15277pt]{10.76385pt}{0.5pt}\\ &\vdots&\\ \rule[2.15277pt]{10.76385pt}{0.5pt}&\mathbf{x}_{n-2}&\rule[2.15277pt]{10.76385pt}{0.5pt}\\ \rule[2.15277pt]{10.76385pt}{0.5pt}&\mathbf{x}_{n-1}&\rule[2.15277pt]{10.76385pt}{0.5pt}\end{array}\right]bold_F ( bold_X ) = [ start_ARRAY start_ROW start_CELL italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_CELL start_CELL italic_θ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_CELL start_CELL end_CELL start_CELL end_CELL start_CELL italic_θ start_POSTSUBSCRIPT - 1 end_POSTSUBSCRIPT end_CELL end_ROW start_ROW start_CELL italic_θ start_POSTSUBSCRIPT - 1 end_POSTSUBSCRIPT end_CELL start_CELL italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_CELL start_CELL italic_θ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_CELL start_CELL end_CELL start_CELL end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL ⋱ end_CELL start_CELL ⋱ end_CELL start_CELL ⋱ end_CELL start_CELL end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL end_CELL start_CELL italic_θ start_POSTSUBSCRIPT - 1 end_POSTSUBSCRIPT end_CELL start_CELL italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_CELL start_CELL italic_θ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_CELL end_ROW start_ROW start_CELL italic_θ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_CELL start_CELL end_CELL start_CELL end_CELL start_CELL italic_θ start_POSTSUBSCRIPT - 1 end_POSTSUBSCRIPT end_CELL start_CELL italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_CELL end_ROW end_ARRAY ] [ start_ARRAY start_ROW start_CELL end_CELL start_CELL bold_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_CELL start_CELL end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL bold_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_CELL start_CELL end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL ⋮ end_CELL start_CELL end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL bold_x start_POSTSUBSCRIPT italic_n - 2 end_POSTSUBSCRIPT end_CELL start_CELL end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL bold_x start_POSTSUBSCRIPT italic_n - 1 end_POSTSUBSCRIPT end_CELL start_CELL end_CELL end_ROW end_ARRAY ]

기계 학습 문헌에서 때때로 "가중치 공유"로 지칭되는, 각각의 대각선을 따라 하나의 요소가 반복되는 이 매우 특별한 다중 대각선 구조에 주목하라.

More generally, given a vector 𝜽=(θ0,,θn1)𝜽subscript𝜃0subscript𝜃𝑛1\bm{\theta}=(\theta_{0},\ldots,\theta_{n-1})bold_italic_θ = ( italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , … , italic_θ start_POSTSUBSCRIPT italic_n - 1 end_POSTSUBSCRIPT ), a circulant matrix 𝐂(𝜽)=(θuvmodn)𝐂𝜽subscript𝜃𝑢𝑣mod𝑛\mathbf{C}(\bm{\theta})=(\theta_{u-v\,\mathrm{mod}\,n})bold_C ( bold_italic_θ ) = ( italic_θ start_POSTSUBSCRIPT italic_u - italic_v roman_mod italic_n end_POSTSUBSCRIPT ) is obtained by appending circularly shifted versions of the vector 𝜽𝜽\bm{\theta}bold_italic_θ. Circulant matrices are synonymous with discrete convolutions, 595959Because of the periodic boundary conditions, it is a circular or cyclic convolution. In signal processing, 𝜽𝜽\bm{\theta}bold_italic_θ is often referred to as the “filter,” and in CNNs, its coefficients are learnable.

(𝐱𝜽)u=v=0n1xvmodnθuvmodnsubscript𝐱𝜽𝑢superscriptsubscript𝑣0𝑛1subscript𝑥𝑣mod𝑛subscript𝜃𝑢𝑣mod𝑛(\mathbf{x}\star\bm{\theta})_{u}=\sum_{v=0}^{n-1}x_{v\,\mathrm{mod}\,n}\,\,\theta_{u-v\,\mathrm{mod}\,n}( bold_x ⋆ bold_italic_θ ) start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = ∑ start_POSTSUBSCRIPT italic_v = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n - 1 end_POSTSUPERSCRIPT italic_x start_POSTSUBSCRIPT italic_v roman_mod italic_n end_POSTSUBSCRIPT italic_θ start_POSTSUBSCRIPT italic_u - italic_v roman_mod italic_n end_POSTSUBSCRIPT

as one has 𝐂(𝜽)𝐱=𝐱𝜽𝐂𝜽𝐱𝐱𝜽\mathbf{C}(\bm{\theta})\mathbf{x}=\mathbf{x}\star\bm{\theta}bold_C ( bold_italic_θ ) bold_x = bold_x ⋆ bold_italic_θ. A particular choice of 𝜽=(0,1,0,,0)𝜽superscript0100top\bm{\theta}=(0,1,0,\ldots,0)^{\top}bold_italic_θ = ( 0 , 1 , 0 , … , 0 ) start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT yields a special circulant matrix that shifts vectors to the right by one position. This matrix is called the (right) shift or translation operator and denoted by 𝐒𝐒\mathbf{S}bold_S.606060The left shift operator is given by 𝐒superscript𝐒top\mathbf{S}^{\top}bold_S start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT. Obviously, shifting left and then right (or vice versa) does not do anything, which means 𝐒𝐒\mathbf{S}bold_S is orthogonal: 𝐒𝐒=𝐒𝐒=𝐈superscript𝐒top𝐒superscript𝐒𝐒top𝐈\mathbf{S}^{\top}\mathbf{S}=\mathbf{S}\mathbf{S}^{\top}=\mathbf{I}bold_S start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT bold_S = bold_SS start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT = bold_I.

Circulant matrices can be characterised by their commutativity property: the product of circulant matrices is commutative, i.e. 𝐂(𝜽)𝐂(𝜼)=𝐂(𝜼)𝐂(𝜽)𝐂𝜽𝐂𝜼𝐂𝜼𝐂𝜽\mathbf{C}(\bm{\theta})\mathbf{C}(\bm{\eta})=\mathbf{C}(\bm{\eta})\mathbf{C}(\bm{\theta})bold_C ( bold_italic_θ ) bold_C ( bold_italic_η ) = bold_C ( bold_italic_η ) bold_C ( bold_italic_θ ) for any 𝜽𝜽\bm{\theta}bold_italic_θ and 𝜼𝜼\bm{\eta}bold_italic_η. Since the shift is a circulant matrix, we get the familiar translation or shift equivariance of the convolution operator,

𝐒𝐂(𝜽)𝐱=𝐂(𝜽)𝐒𝐱.𝐒𝐂𝜽𝐱𝐂𝜽𝐒𝐱\mathbf{S}\mathbf{C}(\bm{\theta})\mathbf{x}=\mathbf{C}(\bm{\theta})\mathbf{S}\mathbf{x}.bold_SC ( bold_italic_θ ) bold_x = bold_C ( bold_italic_θ ) bold_Sx .

근본적인 대칭군(번역군)이 아벨리아인이기 때문에 이러한 교환성 성질은 놀라운 일이 아닐 것이다. 더욱이, 반대 방향도 참인 것으로 보이며, 즉 매트릭스는 시프트와 함께 통근하면 순환한다. 이를 통해 define convolution을 번역 등분산 선형 연산으로 사용할 수 있으며, 기하학적 전치의 힘과 Geometric ML의 전반적인 철학의 멋진 예시입니다: convolution은 번역 대칭의 첫 번째 원리에서 나옵니다.

집합 및 그래프의 상황과 달리 선형 독립 시프트-equivariant 함수(convolutions) grows의 수는 도메인의 크기에 따라 달라집니다(순환 행렬의 각 대각선에 하나의 자유도가 있기 때문입니다). 그러나 스케일 분리 사전 보장 필터는 Convolutional Neural Network 아키텍처의 구현에서 이러한 원칙의 사용을 논의할 때 섹션 5.1에서 확인할 수 있듯이 local으로 인해 레이어당 동일한 Θ(1)Θ1\Theta(1)roman_Θ ( 1 )-파라미터 복잡도가 발생할 수 있습니다.

Derivation of the discrete Fourier transform

우리는 이미 푸리에 변환과 컨볼루션에 대한 연결에 대해 언급했는데, 푸리에 변환이 컨볼루션 연산을 대각화한다는 사실은 푸리에 변환의 요소별 곱으로서 주파수 영역에서 컨벌루션을 수행하기 위해 신호 처리에 사용되는 중요한 속성이다. 그러나 교과서에서는 일반적으로 이러한 사실만 언급하고 있으며, 푸리에 기반에 대한 where 푸리에 변환이 유래하고 이에 대한 special을 설명하는 경우는 거의 없다. 여기서 우리는 그것을 보여줄 수 있는데, 어떻게 기초적인 것이 대칭의 기본 원리인지 다시 한번 보여준다.

이를 위해 linear616161우리는 별개의 고유값을 추가로 가정해야 합니다. 그렇지 않으면 여러 개의 가능한 대각선이 있을 수 있습니다. 이 가정은 𝐒𝐒\mathbf{S}bold_S의 선택에 만족한다. algebra that (diagonalisable) matrix is joinly diagonalisable iff they mutually commute. 즉, 모든 순환 행렬에 공통 고유 기준이 존재하며, 고유 값만 다르다. 따라서 우리는 하나의 순환행렬을 선택하고 그것의 고유벡터를 계산할 수 있다. 우리는 이것들이 다른 모든 순환행렬의 고유벡터가 될 것이라고 확신한다. 시프트 연산자를 선택하는 것이 편리하며, 이 경우 고유 벡터는 이산 푸리에 기반 62626262 𝝋k=1n(1,e2πikn,e4πikn,,e2πi(n1)kn),k=0,1,,n1,formulae-sequencesubscript𝝋𝑘1𝑛superscript1superscript𝑒2𝜋i𝑘𝑛superscript𝑒4𝜋i𝑘𝑛superscript𝑒2𝜋i𝑛1𝑘𝑛top𝑘01𝑛1\bm{\varphi}_{k}=\frac{1}{\sqrt{n}}\left(1,e^{\frac{2\pi\mathrm{i}k}{n}},e^{\frac{4\pi\mathrm{i}k}{n}},\ldots,e^{\frac{2\pi\mathrm{i}(n-1)k}{n}}\right)^{\top},\hskip 14.22636ptk=0,1,\ldots,n-1,bold_italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT = divide start_ARG 1 end_ARG start_ARG square-root start_ARG italic_n end_ARG end_ARG ( 1 , italic_e start_POSTSUPERSCRIPT divide start_ARG 2 italic_π roman_i italic_k end_ARG start_ARG italic_n end_ARG end_POSTSUPERSCRIPT , italic_e start_POSTSUPERSCRIPT divide start_ARG 4 italic_π roman_i italic_k end_ARG start_ARG italic_n end_ARG end_POSTSUPERSCRIPT , … , italic_e start_POSTSUPERSCRIPT divide start_ARG 2 italic_π roman_i ( italic_n - 1 ) italic_k end_ARG start_ARG italic_n end_ARG end_POSTSUPERSCRIPT ) start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT , italic_k = 0 , 1 , … , italic_n - 1 ,

which we can arrange into an n×n𝑛𝑛n\times nitalic_n × italic_n Fourier matrix 𝚽=(𝝋0,,𝝋n1)𝚽subscript𝝋0subscript𝝋𝑛1\bm{\Phi}=(\bm{\varphi}_{0},\ldots,\bm{\varphi}_{n-1})bold_Φ = ( bold_italic_φ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , … , bold_italic_φ start_POSTSUBSCRIPT italic_n - 1 end_POSTSUBSCRIPT ). Multiplication by 𝚽*superscript𝚽\bm{\Phi}^{*}bold_Φ start_POSTSUPERSCRIPT * end_POSTSUPERSCRIPT636363Note that the eigenvectors are complex, so we need to take complex conjugation when transposing 𝚽𝚽\bm{\Phi}bold_Φ.gives the Discrete Fourier Transform (DFT), and by 𝚽𝚽\bm{\Phi}bold_Φ the inverse DFT,

x^k=1nu=0n1xue2πikunxu=1nk=0n1x^ke+2πikun.formulae-sequencesubscript^𝑥𝑘1𝑛superscriptsubscript𝑢0𝑛1subscript𝑥𝑢superscript𝑒2𝜋i𝑘𝑢𝑛subscript𝑥𝑢1𝑛superscriptsubscript𝑘0𝑛1subscript^𝑥𝑘superscript𝑒2𝜋i𝑘𝑢𝑛\hat{x}_{k}=\frac{1}{\sqrt{n}}\sum_{u=0}^{n-1}x_{u}e^{-\frac{2\pi\mathrm{i}ku}{n}}\hskip 42.67912pt{x}_{u}=\frac{1}{\sqrt{n}}\sum_{k=0}^{n-1}\hat{x}_{k}e^{+\frac{2\pi\mathrm{i}ku}{n}}.over^ start_ARG italic_x end_ARG start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT = divide start_ARG 1 end_ARG start_ARG square-root start_ARG italic_n end_ARG end_ARG ∑ start_POSTSUBSCRIPT italic_u = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n - 1 end_POSTSUPERSCRIPT italic_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT italic_e start_POSTSUPERSCRIPT - divide start_ARG 2 italic_π roman_i italic_k italic_u end_ARG start_ARG italic_n end_ARG end_POSTSUPERSCRIPT italic_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = divide start_ARG 1 end_ARG start_ARG square-root start_ARG italic_n end_ARG end_ARG ∑ start_POSTSUBSCRIPT italic_k = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n - 1 end_POSTSUPERSCRIPT over^ start_ARG italic_x end_ARG start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT italic_e start_POSTSUPERSCRIPT + divide start_ARG 2 italic_π roman_i italic_k italic_u end_ARG start_ARG italic_n end_ARG end_POSTSUPERSCRIPT .

모든 순환 행렬은 공동으로 대각화가 가능하기 때문에, 64646464 푸리에 변환은 직교 행렬(𝚽*𝚽=𝐈superscript𝚽𝚽𝐈\bm{\Phi}^{*}\bm{\Phi}=\mathbf{I}bold_Φ start_POSTSUPERSCRIPT * end_POSTSUPERSCRIPT bold_Φ = bold_I)이므로 기하학적으로 n𝑛nitalic_n-dimensional rotation에 해당하는 좌표의 시스템의 변화로서 작용한다. 이 좌표계("푸리에 도메인")에서는 순환기 𝐂𝐂\mathbf{C}bold_C 행렬의 작용이 요소별 곱이 된다. 그들은 또한 푸리에 변환에 의해 대각화되며 고유값에서만 다르다. 순환 행렬 𝐂(𝜽)𝐂𝜽\mathbf{C}(\bm{\theta})bold_C ( bold_italic_θ )의 고유값들은 필터의 푸리에 변환이므로(e.g. Bamieh (2018) 참조), 𝜽^=𝚽*𝜽^𝜽superscript𝚽𝜽\hat{\bm{\theta}}=\bm{\Phi}^{*}\bm{\theta}over^ start_ARG bold_italic_θ end_ARG = bold_Φ start_POSTSUPERSCRIPT * end_POSTSUPERSCRIPT bold_italic_θ 우리는 컨볼루션 정리를 얻는다:

𝐂(𝜽)𝐱=𝚽[θ^0θ^n1]𝚽*𝐱=𝚽(𝜽^𝐱^)𝐂𝜽𝐱𝚽delimited-[]subscript^𝜃0missing-subexpressionmissing-subexpressionmissing-subexpressionmissing-subexpressionmissing-subexpressionmissing-subexpressionsubscript^𝜃𝑛1superscript𝚽𝐱𝚽direct-product^𝜽^𝐱\mathbf{C}(\bm{\theta})\mathbf{x}=\bm{\Phi}\left[\begin{array}[]{ccc}\hat{\theta}_{0}&&\\ &\ddots&\\ &&\hat{\theta}_{n-1}\end{array}\right]\bm{\Phi}^{*}\mathbf{x}=\bm{\Phi}(\hat{\bm{\theta}}\odot\hat{\mathbf{x}})bold_C ( bold_italic_θ ) bold_x = bold_Φ [ start_ARRAY start_ROW start_CELL over^ start_ARG italic_θ end_ARG start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_CELL start_CELL end_CELL start_CELL end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL ⋱ end_CELL start_CELL end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL end_CELL start_CELL over^ start_ARG italic_θ end_ARG start_POSTSUBSCRIPT italic_n - 1 end_POSTSUBSCRIPT end_CELL end_ROW end_ARRAY ] bold_Φ start_POSTSUPERSCRIPT * end_POSTSUPERSCRIPT bold_x = bold_Φ ( over^ start_ARG bold_italic_θ end_ARG ⊙ over^ start_ARG bold_x end_ARG )

푸리에 행렬 𝚽𝚽\bm{\Phi}bold_Φ는 특별한 대수 구조를 가지므로, FFT(Fast Fourier Transform) 알고리즘을 이용하여 𝚽𝐱superscript𝚽𝐱\bm{\Phi}^{\star}\mathbf{x}bold_Φ start_POSTSUPERSCRIPT ⋆ end_POSTSUPERSCRIPT bold_x𝚽𝐱𝚽𝐱\bm{\Phi}\mathbf{x}bold_Φ bold_x의 곱을 𝒪(nlogn)𝒪𝑛𝑛\mathcal{O}(n\log n)caligraphic_O ( italic_n roman_log italic_n ) 복잡도로 연산할 수 있다. 이것은 주파수 영역 필터링이 신호 처리에서 그렇게 인기 있는 이유 중 하나이며, 더 나아가, 필터는 전형적으로 주파수 영역에서 직접 설계되므로, 푸리에 변환 𝜽^^𝜽\hat{\bm{\theta}}over^ start_ARG bold_italic_θ end_ARG는 결코 명시적으로 계산되지 않는다.

여기에서 수행한 푸리에 변환 및 컨볼루션의 도출의 교훈적 값 외에도 이러한 개념을 그래프로 일반화하는 스킴을 제공한다. 링 그래프의 인접 행렬이 정확히 시프트 연산자임을 깨닫고, 인접 행렬의 고유 벡터를 계산함으로써 그래프 푸리에 변환 및 컨볼루션 연산자의 유추를 개발할 수 있다(예를 들어, Sandryhaila and Moura (2013) 참조). 때때로 '스펙트럴 GNN'이라고 불리는 CNN과 유추하여 그래프 신경망을 개발하려는 초기 시도는 이 정확한 청사진을 활용했다. 656565In graph signal processing, the eigenvectors of the graph Laplacian are often used as an alternative of the adjacency matrix to construct the graph Fourier transform, see Shuman et al. (2013). On grids, both matrices have joint eigenvectors, but on graphs they results in somewhat different though related constructions.We will see in Sections 4.44.6 that this analogy has some important limitations. 첫 번째 한계는 격자가 고정되어 있으므로 그 위의 모든 신호를 동일한 푸리에 기반으로 나타낼 수 있다는 사실에서 비롯된다. 이에 비해 일반적인 그래프에서는 푸리에 기저가 그래프의 구조에 따라 달라진다. 따라서 우리는 두 가지 다른 그래프에서 푸리에 변환을 직접 비교할 수 없다. 즉, 기계 학습 문제의 일반화 부족으로 번역된 문제이다. 둘째, 1차원 격자의 텐서 곱으로 구성된 다차원 격자는 기본 구조를 유지한다: 푸리에 기저 요소와 그에 대응하는 주파수(고유값)는 다차원으로 구성될 수 있다. 예를 들어 이미지에서 수평 및 수직 주파수에 대해 자연스럽게 이야기할 수 있으며 필터는 direction의 개념을 가지고 있다. 그래프에서 푸리에 영역의 구조는 푸리에 기저 함수를 해당 주파수의 크기만큼만 정리할 수 있기 때문에 1차원이다. 결과적으로, 그래프 필터는 방향 또는 isotropic을 망각한다.

Derivation of the continuous Fourier transform

For the sake of completeness, and as a segway for the next discussion, we repeat our analysis in the continuous setting. Like in Section 3.4, consider functions defined on Ω=Ω\Omega=\mathbb{R}roman_Ω = blackboard_R and the translation operator (Svf)(u)=f(uv)subscript𝑆𝑣𝑓𝑢𝑓𝑢𝑣(S_{v}f)(u)=f(u-v)( italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT italic_f ) ( italic_u ) = italic_f ( italic_u - italic_v ) shifting f𝑓fitalic_f by some position v𝑣vitalic_v. Applying Svsubscript𝑆𝑣S_{v}italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT to the Fourier basis functions φξ(u)=eiξusubscript𝜑𝜉𝑢superscript𝑒i𝜉𝑢\varphi_{\xi}(u)=e^{\mathrm{i}\xi u}italic_φ start_POSTSUBSCRIPT italic_ξ end_POSTSUBSCRIPT ( italic_u ) = italic_e start_POSTSUPERSCRIPT roman_i italic_ξ italic_u end_POSTSUPERSCRIPT yields, by associativity of the exponent,

Sveiξu=eiξ(uv)=eiξveiξu,subscript𝑆𝑣superscript𝑒i𝜉𝑢superscript𝑒i𝜉𝑢𝑣superscript𝑒i𝜉𝑣superscript𝑒i𝜉𝑢S_{v}e^{\mathrm{i}\xi u}=e^{\mathrm{i}\xi(u-v)}=e^{-\mathrm{i}\xi v}e^{\mathrm{i}\xi u},italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT italic_e start_POSTSUPERSCRIPT roman_i italic_ξ italic_u end_POSTSUPERSCRIPT = italic_e start_POSTSUPERSCRIPT roman_i italic_ξ ( italic_u - italic_v ) end_POSTSUPERSCRIPT = italic_e start_POSTSUPERSCRIPT - roman_i italic_ξ italic_v end_POSTSUPERSCRIPT italic_e start_POSTSUPERSCRIPT roman_i italic_ξ italic_u end_POSTSUPERSCRIPT ,

i.e., φuξ(u)𝜑subscript𝑢𝜉𝑢\varphi{u}_{\xi}(u)italic_φ italic_u start_POSTSUBSCRIPT italic_ξ end_POSTSUBSCRIPT ( italic_u ) is the complex eigenvector of Svsubscript𝑆𝑣S_{v}italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT with the complex eigenvalue eiξvsuperscript𝑒i𝜉𝑣e^{-\mathrm{i}\xi v}italic_e start_POSTSUPERSCRIPT - roman_i italic_ξ italic_v end_POSTSUPERSCRIPT – exactly mirroring the situation we had in the discrete setting. Since Svsubscript𝑆𝑣S_{v}italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT is a unitary operator (i.e., Svxp=xpsubscriptnormsubscript𝑆𝑣𝑥𝑝subscriptnorm𝑥𝑝\|S_{v}x\|_{p}=\|x\|_{p}∥ italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT italic_x ∥ start_POSTSUBSCRIPT italic_p end_POSTSUBSCRIPT = ∥ italic_x ∥ start_POSTSUBSCRIPT italic_p end_POSTSUBSCRIPT for any p𝑝pitalic_p and xLp()𝑥subscript𝐿𝑝x\in L_{p}(\mathbb{R})italic_x ∈ italic_L start_POSTSUBSCRIPT italic_p end_POSTSUBSCRIPT ( blackboard_R )), any eigenvalue λ𝜆\lambdaitalic_λ must satisfy |λ|=1𝜆1|\lambda|=1| italic_λ | = 1, which corresponds precisely to the eigenvalues eiξvsuperscript𝑒𝑖𝜉𝑣e^{-i\xi v}italic_e start_POSTSUPERSCRIPT - italic_i italic_ξ italic_v end_POSTSUPERSCRIPT found above. Moreover, the spectrum of the translation operator is simple, meaning that two functions sharing the same eigenvalue must necessarily be collinear. Indeed, suppose that Svf=eiξ0vfsubscript𝑆𝑣𝑓superscript𝑒isubscript𝜉0𝑣𝑓S_{v}f=e^{-\mathrm{i}\xi_{0}v}fitalic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT italic_f = italic_e start_POSTSUPERSCRIPT - roman_i italic_ξ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT italic_v end_POSTSUPERSCRIPT italic_f for some ξ0subscript𝜉0\xi_{0}italic_ξ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT. Taking the Fourier transform in both sides, we obtain

ξ,eiξvf^(ξ)=eiξ0vf^(ξ),for-all𝜉superscript𝑒i𝜉𝑣^𝑓𝜉superscript𝑒isubscript𝜉0𝑣^𝑓𝜉\forall~{}\xi~{},~{}e^{-\mathrm{i}\xi v}\hat{f}(\xi)=e^{-\mathrm{i}\xi_{0}v}\hat{f}(\xi)~{},∀ italic_ξ , italic_e start_POSTSUPERSCRIPT - roman_i italic_ξ italic_v end_POSTSUPERSCRIPT over^ start_ARG italic_f end_ARG ( italic_ξ ) = italic_e start_POSTSUPERSCRIPT - roman_i italic_ξ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT italic_v end_POSTSUPERSCRIPT over^ start_ARG italic_f end_ARG ( italic_ξ ) ,

which implies that f^(ξ)=0^𝑓𝜉0\hat{f}(\xi)=0over^ start_ARG italic_f end_ARG ( italic_ξ ) = 0 for ξξ0𝜉subscript𝜉0\xi\neq\xi_{0}italic_ξ ≠ italic_ξ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT, thus f=αφξ0𝑓𝛼subscript𝜑subscript𝜉0f=\alpha\varphi_{\xi_{0}}italic_f = italic_α italic_φ start_POSTSUBSCRIPT italic_ξ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_POSTSUBSCRIPT.

For a general linear operator C𝐶Citalic_C that is translation equivariant (SvC=CSvsubscript𝑆𝑣𝐶𝐶subscript𝑆𝑣S_{v}C=CS_{v}italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT italic_C = italic_C italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT), we have

SvCeiξu=CSveiξu=eiξvCeiξu,subscript𝑆𝑣𝐶superscript𝑒i𝜉𝑢𝐶subscript𝑆𝑣superscript𝑒i𝜉𝑢superscript𝑒i𝜉𝑣𝐶superscript𝑒i𝜉𝑢S_{v}Ce^{\mathrm{i}\xi u}=CS_{v}e^{\mathrm{i}\xi u}=e^{-\mathrm{i}\xi v}Ce^{\mathrm{i}\xi u},italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT italic_C italic_e start_POSTSUPERSCRIPT roman_i italic_ξ italic_u end_POSTSUPERSCRIPT = italic_C italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT italic_e start_POSTSUPERSCRIPT roman_i italic_ξ italic_u end_POSTSUPERSCRIPT = italic_e start_POSTSUPERSCRIPT - roman_i italic_ξ italic_v end_POSTSUPERSCRIPT italic_C italic_e start_POSTSUPERSCRIPT roman_i italic_ξ italic_u end_POSTSUPERSCRIPT ,

implying that Ceiξu𝐶superscript𝑒i𝜉𝑢Ce^{\mathrm{i}\xi u}italic_C italic_e start_POSTSUPERSCRIPT roman_i italic_ξ italic_u end_POSTSUPERSCRIPT is also an eigenfunction666666Eigenfunction is synonymous with ‘eigenvector’ and is used when referring to eigenvectors of continuous operators.of Svsubscript𝑆𝑣S_{v}italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT with eigenvalue eiξvsuperscript𝑒i𝜉𝑣e^{-\mathrm{i}\xi v}italic_e start_POSTSUPERSCRIPT - roman_i italic_ξ italic_v end_POSTSUPERSCRIPT, from where it follows from the simplicity of spectrum that Ceiξu=βφξ(u)𝐶superscript𝑒i𝜉𝑢𝛽subscript𝜑𝜉𝑢Ce^{\mathrm{i}\xi u}=\beta\varphi_{\xi}(u)italic_C italic_e start_POSTSUPERSCRIPT roman_i italic_ξ italic_u end_POSTSUPERSCRIPT = italic_β italic_φ start_POSTSUBSCRIPT italic_ξ end_POSTSUBSCRIPT ( italic_u ); in other words, the Fourier basis is the eigenbasis of all translation equivariant operators. As a result, C𝐶Citalic_C is diagonal in the Fourier domain and can be expressed as Ceiξu=p^C(ξ)eiξu𝐶superscript𝑒i𝜉𝑢subscript^𝑝𝐶𝜉superscript𝑒i𝜉𝑢Ce^{\mathrm{i}\xi u}=\hat{p}_{C}(\xi)e^{\mathrm{i}\xi u}italic_C italic_e start_POSTSUPERSCRIPT roman_i italic_ξ italic_u end_POSTSUPERSCRIPT = over^ start_ARG italic_p end_ARG start_POSTSUBSCRIPT italic_C end_POSTSUBSCRIPT ( italic_ξ ) italic_e start_POSTSUPERSCRIPT roman_i italic_ξ italic_u end_POSTSUPERSCRIPT, where p^C(ξ)subscript^𝑝𝐶𝜉\hat{p}_{C}(\xi)over^ start_ARG italic_p end_ARG start_POSTSUBSCRIPT italic_C end_POSTSUBSCRIPT ( italic_ξ ) is a transfer function acting on different frequencies ξ𝜉\xiitalic_ξ. Finally, for an arbitrary function x(u)𝑥𝑢x(u)italic_x ( italic_u ), by linearity,

(Cx)(u)𝐶𝑥𝑢\displaystyle(Cx)(u)( italic_C italic_x ) ( italic_u ) =\displaystyle== C+x^(ξ)eiξudξ=+x^(ξ)p^C(ξ)eiξudξ𝐶superscriptsubscript^𝑥𝜉superscript𝑒i𝜉𝑢differential-d𝜉superscriptsubscript^𝑥𝜉subscript^𝑝𝐶𝜉superscript𝑒i𝜉𝑢differential-d𝜉\displaystyle C\int_{-\infty}^{+\infty}\hat{x}(\xi)e^{\mathrm{i}\xi u}\mathrm{d}\xi=\int_{-\infty}^{+\infty}\hat{x}(\xi)\hat{p}_{C}(\xi)e^{\mathrm{i}\xi u}\mathrm{d}\xiitalic_C ∫ start_POSTSUBSCRIPT - ∞ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT + ∞ end_POSTSUPERSCRIPT over^ start_ARG italic_x end_ARG ( italic_ξ ) italic_e start_POSTSUPERSCRIPT roman_i italic_ξ italic_u end_POSTSUPERSCRIPT roman_d italic_ξ = ∫ start_POSTSUBSCRIPT - ∞ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT + ∞ end_POSTSUPERSCRIPT over^ start_ARG italic_x end_ARG ( italic_ξ ) over^ start_ARG italic_p end_ARG start_POSTSUBSCRIPT italic_C end_POSTSUBSCRIPT ( italic_ξ ) italic_e start_POSTSUPERSCRIPT roman_i italic_ξ italic_u end_POSTSUPERSCRIPT roman_d italic_ξ
=\displaystyle== +pC(v)x(uv)dv=(xpC)(u),superscriptsubscriptsubscript𝑝𝐶𝑣𝑥𝑢𝑣differential-d𝑣𝑥subscript𝑝𝐶𝑢\displaystyle\int_{-\infty}^{+\infty}p_{C}(v)x(u-v)\mathrm{d}v~{}=(x\star p_{C})(u),∫ start_POSTSUBSCRIPT - ∞ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT + ∞ end_POSTSUPERSCRIPT italic_p start_POSTSUBSCRIPT italic_C end_POSTSUBSCRIPT ( italic_v ) italic_x ( italic_u - italic_v ) roman_d italic_v = ( italic_x ⋆ italic_p start_POSTSUBSCRIPT italic_C end_POSTSUBSCRIPT ) ( italic_u ) ,

where pC(u)subscript𝑝𝐶𝑢p_{C}(u)italic_p start_POSTSUBSCRIPT italic_C end_POSTSUBSCRIPT ( italic_u ) is the inverse Fourier transform of p^C(ξ)subscript^𝑝𝐶𝜉\hat{p}_{C}(\xi)over^ start_ARG italic_p end_ARG start_POSTSUBSCRIPT italic_C end_POSTSUBSCRIPT ( italic_ξ ). It thus follows that every linear translation equivariant operator is a convolution.

4.3 Groups and Homogeneous spaces

그리드에 대한 우리의 논의는 시프트와 컨볼루션이 어떻게 밀접하게 연결되는지를 강조했습니다: 컨볼루션은 선형 시프트-equivariant68686868Technically, 우리는 그룹이 locally compact이므로 좌불변 Haar 척도가 있습니다. 이 척도에 대해 통합하면, +x(u)du=+x(uv)dusuperscriptsubscript𝑥𝑢differential-d𝑢superscriptsubscript𝑥𝑢𝑣differential-d𝑢\int_{-\infty}^{+\infty}x(u)\mathrm{d}u=\int_{-\infty}^{+\infty}x(u-v)\mathrm{d}u∫ start_POSTSUBSCRIPT - ∞ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT + ∞ end_POSTSUPERSCRIPT italic_x ( italic_u ) roman_d italic_u = ∫ start_POSTSUBSCRIPT - ∞ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT + ∞ end_POSTSUPERSCRIPT italic_x ( italic_u - italic_v ) roman_d italic_u x::𝑥x:\mathbb{R}\rightarrow\mathbb{R}italic_x : blackboard_R → blackboard_R 함수에 대해 동일한 결과를 얻을 수 있습니다. operations이고, 그 반대의 경우, 임의의 shift-equivariant linear operator는 convolution이다. 또한, 시프트 연산자는 퓨리에 변환에 의해 공동으로 대각화될 수 있다. 알고 보니 이것은 훨씬 더 큰 이야기의 일부입니다: 컨볼루션과 푸리에 변환은 모두 우리가 합하거나 통합할 수 있는 모든 대칭 그룹에 대해 로 정의할 수 있습니다.

Consider the Euclidean domain Ω=Ω\Omega=\mathbb{R}roman_Ω = blackboard_R. We can understand the convolution as a pattern matching operation: we match shifted copies of a filter θ(u)𝜃𝑢\theta(u)italic_θ ( italic_u ) with an input signal x(u)𝑥𝑢x(u)italic_x ( italic_u ). The value of the convolution (xθ)(u)𝑥𝜃𝑢(x\star\theta)(u)( italic_x ⋆ italic_θ ) ( italic_u ) at a point u𝑢uitalic_u is the inner product of the signal x𝑥xitalic_x with the filter shifted by u𝑢uitalic_u,

(xθ)(u)=x,Suθ=x(v)θ(u+v)dv.𝑥𝜃𝑢𝑥subscript𝑆𝑢𝜃subscript𝑥𝑣𝜃𝑢𝑣differential-d𝑣(x\star\theta)(u)=\langle x,S_{u}\theta\rangle=\int_{\mathbb{R}}x(v)\theta(u+v)\mathrm{d}v.( italic_x ⋆ italic_θ ) ( italic_u ) = ⟨ italic_x , italic_S start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT italic_θ ⟩ = ∫ start_POSTSUBSCRIPT blackboard_R end_POSTSUBSCRIPT italic_x ( italic_v ) italic_θ ( italic_u + italic_v ) roman_d italic_v .

이 경우 u𝑢uitalic_u는 모두 도메인 상의 점 Ω=normal-Ω\Omega=\mathbb{R}roman_Ω = blackboard_R 및 또한 번역 그룹의 요소이며, 이는 도메인 자체, 𝔊=𝔊{\mathfrak{G}}=\mathbb{R}fraktur_G = blackboard_R와 식별할 수 있다. 이제 번역 그룹을 𝔊𝔊{\mathfrak{G}}fraktur_GΩΩ\Omegaroman_Ω에 작용하는 다른 그룹 𝔊𝔊{\mathfrak{G}}fraktur_G로 간단히 대체함으로써 이 구성을 일반화하는 방법을 보여 줄 것이다.

Group convolution

As discussed in Section 3, the action of the group 𝔊𝔊{\mathfrak{G}}fraktur_G on the domain ΩΩ\Omegaroman_Ω induces a representation ρ𝜌\rhoitalic_ρ of 𝔊𝔊{\mathfrak{G}}fraktur_G on the space of signals 𝒳(Ω)𝒳Ω\mathcal{X}(\Omega)caligraphic_X ( roman_Ω ) via ρ(𝔤)x(u)=x(𝔤1u)𝜌𝔤𝑥𝑢𝑥superscript𝔤1𝑢\rho({\mathfrak{g}})x(u)=x({\mathfrak{g}}^{-1}u)italic_ρ ( fraktur_g ) italic_x ( italic_u ) = italic_x ( fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT italic_u ). In the above example, 𝔊𝔊{\mathfrak{G}}fraktur_G is the translation group whose elements act by shifting the coordinates, u+v𝑢𝑣u+vitalic_u + italic_v, whereas ρ(𝔤)𝜌𝔤\rho({\mathfrak{g}})italic_ρ ( fraktur_g ) is the shift operator acting on signals as (Svx)(u)=x(uv)subscript𝑆𝑣𝑥𝑢𝑥𝑢𝑣(S_{v}x)(u)=x(u-v)( italic_S start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT italic_x ) ( italic_u ) = italic_x ( italic_u - italic_v ). Finally, in order to apply a filter to the signal, we invoke our assumption of 𝒳(Ω)𝒳Ω\mathcal{X}(\Omega)caligraphic_X ( roman_Ω ) being a Hilbert space, with an inner product

x,θ=Ωx(u)θ(u)du,𝑥𝜃subscriptΩ𝑥𝑢𝜃𝑢differential-d𝑢\langle x,\theta\rangle=\int_{\Omega}x(u)\theta(u)\mathrm{d}u,⟨ italic_x , italic_θ ⟩ = ∫ start_POSTSUBSCRIPT roman_Ω end_POSTSUBSCRIPT italic_x ( italic_u ) italic_θ ( italic_u ) roman_d italic_u ,

여기에서 우리는 단순화를 위해 스칼라 값 신호인 𝒳(Ω,)𝒳Ω\mathcal{X}(\Omega,\mathbb{R})caligraphic_X ( roman_Ω , blackboard_R )를 가정했다; 일반적으로 내적 값은 방정식 (2)의 형태를 갖는다.

이렇게 신호를 변환하고 필터와 일치시키는 방법을 정의하면 group convolution for signal on ΩΩ\Omegaroman_Ω,

(xθ)(𝔤)=x,ρ(𝔤)θ=Ωx(u)θ(𝔤1u)du.𝑥𝜃𝔤𝑥𝜌𝔤𝜃subscriptΩ𝑥𝑢𝜃superscript𝔤1𝑢differential-d𝑢(x\star\theta)({\mathfrak{g}})=\langle x,\rho({\mathfrak{g}})\theta\rangle=\int_{\Omega}x(u)\theta({\mathfrak{g}}^{-1}u)\mathrm{d}u.( italic_x ⋆ italic_θ ) ( fraktur_g ) = ⟨ italic_x , italic_ρ ( fraktur_g ) italic_θ ⟩ = ∫ start_POSTSUBSCRIPT roman_Ω end_POSTSUBSCRIPT italic_x ( italic_u ) italic_θ ( fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT italic_u ) roman_d italic_u . (14)

Note that xθ𝑥𝜃x\star\thetaitalic_x ⋆ italic_θ takes values on the elements 𝔤𝔤{\mathfrak{g}}fraktur_g of our group 𝔊𝔊{\mathfrak{G}}fraktur_G rather than points on the domain ΩΩ\Omegaroman_Ω. Hence, the next layer, which takes xθ𝑥𝜃x\star\thetaitalic_x ⋆ italic_θ as input, should act on signals defined on to the group 𝔊𝔊{\mathfrak{G}}fraktur_G, a point we will return to shortly.

Just like how the traditional Euclidean convolution is shift-equivariant, the more general group convolution is 𝔊𝔊{\mathfrak{G}}fraktur_G-equivariant. The key observation is that matching the signal x𝑥xitalic_x with a 𝔤𝔤{\mathfrak{g}}fraktur_g-transformed filter ρ(𝔤)θ𝜌𝔤𝜃\rho({\mathfrak{g}})\thetaitalic_ρ ( fraktur_g ) italic_θ is the same as matching the inverse transformed signal ρ(𝔤1)x𝜌superscript𝔤1𝑥\rho({\mathfrak{g}}^{-1})xitalic_ρ ( fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ) italic_x with the untransformed filter θ𝜃\thetaitalic_θ. Mathematically, this can be expressed as x,ρ(𝔤)θ=ρ(𝔤1)x,θ𝑥𝜌𝔤𝜃𝜌superscript𝔤1𝑥𝜃\langle x,\rho({\mathfrak{g}})\theta\rangle=\langle\rho({\mathfrak{g}}^{-1})x,\theta\rangle⟨ italic_x , italic_ρ ( fraktur_g ) italic_θ ⟩ = ⟨ italic_ρ ( fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ) italic_x , italic_θ ⟩. With this insight, 𝔊𝔊{\mathfrak{G}}fraktur_G-equivariance of the group convolution (14) follows immediately from its definition and the defining property ρ(𝔥1)ρ(𝔤)=ρ(𝔥1𝔤)𝜌superscript𝔥1𝜌𝔤𝜌superscript𝔥1𝔤\rho({\mathfrak{h}}^{-1})\rho({\mathfrak{g}})=\rho({\mathfrak{h}}^{-1}{\mathfrak{g}})italic_ρ ( fraktur_h start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ) italic_ρ ( fraktur_g ) = italic_ρ ( fraktur_h start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT fraktur_g ) of group representations,

(ρ(𝔥)xθ)(𝔤)=ρ(𝔥)x,ρ(𝔤)θ=x,ρ(𝔥1𝔤)θ=ρ(𝔥)(xθ)(𝔤).𝜌𝔥𝑥𝜃𝔤𝜌𝔥𝑥𝜌𝔤𝜃𝑥𝜌superscript𝔥1𝔤𝜃𝜌𝔥𝑥𝜃𝔤(\rho({\mathfrak{h}})x\star\theta)({\mathfrak{g}})=\langle\rho({\mathfrak{h}})x,\rho({\mathfrak{g}})\theta\rangle=\langle x,\rho({\mathfrak{h}}^{-1}{\mathfrak{g}})\theta\rangle=\rho({\mathfrak{h}})(x\star\theta)({\mathfrak{g}}).( italic_ρ ( fraktur_h ) italic_x ⋆ italic_θ ) ( fraktur_g ) = ⟨ italic_ρ ( fraktur_h ) italic_x , italic_ρ ( fraktur_g ) italic_θ ⟩ = ⟨ italic_x , italic_ρ ( fraktur_h start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT fraktur_g ) italic_θ ⟩ = italic_ρ ( fraktur_h ) ( italic_x ⋆ italic_θ ) ( fraktur_g ) .

Let us look at some examples. The case of one-dimensional grid we have studied above is obtained with the choice Ω=n={0,,n1}Ωsubscript𝑛0𝑛1\Omega=\mathbb{Z}_{n}=\{0,\ldots,n-1\}roman_Ω = blackboard_Z start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT = { 0 , … , italic_n - 1 } and the cyclic shift group 𝔊=n𝔊subscript𝑛{\mathfrak{G}}=\mathbb{Z}_{n}fraktur_G = blackboard_Z start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT. The group elements in this case are cyclic shifts of indices, i.e., an element 𝔤𝔊𝔤𝔊{\mathfrak{g}}\in{\mathfrak{G}}fraktur_g ∈ fraktur_G can be identified with some u=0,,n1𝑢0𝑛1u=0,\ldots,n-1italic_u = 0 , … , italic_n - 1 such that 𝔤.v=vumodnformulae-sequence𝔤𝑣𝑣𝑢mod𝑛{\mathfrak{g}}.v=v-u\,\mathrm{mod}\,nfraktur_g . italic_v = italic_v - italic_u roman_mod italic_n, whereas the inverse element is 𝔤1.v=v+umodnformulae-sequencesuperscript𝔤1𝑣𝑣𝑢mod𝑛{\mathfrak{g}}^{-1}.v=v+u\,\mathrm{mod}\,nfraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT . italic_v = italic_v + italic_u roman_mod italic_n. Importantly, in this example the elements of the group (shifts) are also elements of the domain (indices). We thus can, with some abuse of notation, identify the two structures (i.e., Ω=𝔊Ω𝔊\Omega={\mathfrak{G}}roman_Ω = fraktur_G); our expression for the group convolution in this case

(xθ)(𝔤)=v=0n1xvθ𝔤1v,𝑥𝜃𝔤superscriptsubscript𝑣0𝑛1subscript𝑥𝑣subscript𝜃superscript𝔤1𝑣(x\star\theta)({\mathfrak{g}})=\sum_{v=0}^{n-1}x_{v}\,\theta_{{\mathfrak{g}}^{-1}v},( italic_x ⋆ italic_θ ) ( fraktur_g ) = ∑ start_POSTSUBSCRIPT italic_v = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n - 1 end_POSTSUPERSCRIPT italic_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT italic_θ start_POSTSUBSCRIPT fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT italic_v end_POSTSUBSCRIPT ,

leads to the familiar convolution 717171Actually here again, this is cross-correlation.(xθ)u=v=0n1xvθv+umodnsubscript𝑥𝜃𝑢superscriptsubscript𝑣0𝑛1subscript𝑥𝑣subscript𝜃𝑣𝑢mod𝑛\displaystyle(x\star\theta)_{u}=\sum_{v=0}^{n-1}x_{v}\,\theta_{v+u\,\,\mathrm{mod}\,n}( italic_x ⋆ italic_θ ) start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = ∑ start_POSTSUBSCRIPT italic_v = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n - 1 end_POSTSUPERSCRIPT italic_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT italic_θ start_POSTSUBSCRIPT italic_v + italic_u roman_mod italic_n end_POSTSUBSCRIPT.

Spherical convolution

이제 727272[Uncaptioned image] Cosmic microwave background radiation, captured by the Planck space observatory is a signal on 𝕊2superscript𝕊2\mathbb{S}^{2}blackboard_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT. the two-dimensional sphere Ω=𝕊2Ωsuperscript𝕊2\Omega=\mathbb{S}^{2}roman_Ω = blackboard_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT with the group of rotations, the special orthogonal group 𝔊=SO(3)𝔊SO3{\mathfrak{G}}=\mathrm{SO}(3)fraktur_G = roman_SO ( 3 ). 교육학적 이유로 선택되었지만, 이 예는 실제로 매우 실용적이며 수많은 응용 분야에서 발생한다. 예를 들어, 천체 물리학에서 관측 데이터는 종종 자연적으로 구면 기하학을 가지고 있다. 또한, 구형 대칭은 분자를 모델링하고 예를 들어 가상 약물 스크리닝의 목적으로 이들의 특성을 예측하려고 할 때 화학 분야에서 응용에서 매우 중요하다.

Representing a point on the sphere as a three-dimensional unit vector 𝐮:𝐮=1:𝐮norm𝐮1\mathbf{u}:\|\mathbf{u}\|=1bold_u : ∥ bold_u ∥ = 1, the action of the group can be represented as a 3×3333\times 33 × 3 orthogonal matrix 𝐑𝐑\mathbf{R}bold_R with det(𝐑)=1det𝐑1\mathrm{det}(\mathbf{R})=1roman_det ( bold_R ) = 1. The spherical convolution can thus be written as the inner product between the signal and the rotated filter,

(xθ)(𝐑)=𝕊2x(𝐮)θ(𝐑1𝐮)d𝐮.𝑥𝜃𝐑subscriptsuperscript𝕊2𝑥𝐮𝜃superscript𝐑1𝐮differential-d𝐮(x\star\theta)(\mathbf{R})=\int_{\mathbb{S}^{2}}x(\textbf{u})\theta(\mathbf{R}^{-1}\mathbf{u})\mathrm{d}\mathbf{u}.( italic_x ⋆ italic_θ ) ( bold_R ) = ∫ start_POSTSUBSCRIPT blackboard_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_POSTSUBSCRIPT italic_x ( u ) italic_θ ( bold_R start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT bold_u ) roman_d bold_u .

가장 먼저 주목해야 할 것은 지금보다 그룹이 도메인과 동일하지 않다는 것이다: 그룹 SO(3)SO3\mathrm{SO}(3)roman_SO ( 3 )는 사실상 3차원 매니폴드인 Lie 그룹인 반면, 𝕊2superscript𝕊2\mathbb{S}^{2}blackboard_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT는 2차원 매니폴드이다. 결과적으로, 이 경우, 이전의 예와 달리, 컨볼루션은 함수 on SO(3)SO3\operatorname{SO}(3)roman_SO ( 3 ) rather than on ΩΩ\Omegaroman_Ω

This has important practical consequences: in our Geometric Deep Learning blueprint, we concatenate multiple equivariant maps (“layers” in deep learning jargon) by applying a subsequent operator to the output of the previous one. In the case of translations, we can apply multiple convolutions in sequence, since their outputs are all defined on the same domain ΩΩ\Omegaroman_Ω. In the general setting, since xθ𝑥𝜃x\star\thetaitalic_x ⋆ italic_θ is a function on 𝔊𝔊{\mathfrak{G}}fraktur_G rather than on ΩΩ\Omegaroman_Ω, we cannot use exactly the same operation subsequently—it means that the next operation has to deal with signals on 𝔊𝔊{\mathfrak{G}}fraktur_G, i.e. x𝒳(𝔊)𝑥𝒳𝔊x\in\mathcal{X}({\mathfrak{G}})italic_x ∈ caligraphic_X ( fraktur_G ). Our definition of group convolution allows this case: we take as domain Ω=𝔊Ω𝔊\Omega={\mathfrak{G}}roman_Ω = fraktur_G acted on by 𝔊𝔊{\mathfrak{G}}fraktur_G itself via the group action (𝔤,𝔥)𝔤𝔥maps-to𝔤𝔥𝔤𝔥({\mathfrak{g}},{\mathfrak{h}})\mapsto{\mathfrak{g}}{\mathfrak{h}}( fraktur_g , fraktur_h ) ↦ fraktur_g fraktur_h defined by the composition operation of 𝔊𝔊{\mathfrak{G}}fraktur_G. This yields the representation ρ(𝔤)𝜌𝔤\rho({\mathfrak{g}})italic_ρ ( fraktur_g ) acting on x𝒳(𝔊)𝑥𝒳𝔊x\in\mathcal{X}({\mathfrak{G}})italic_x ∈ caligraphic_X ( fraktur_G ) by (ρ(𝔤)x)(𝔥)=x(𝔤1𝔥)𝜌𝔤𝑥𝔥𝑥superscript𝔤1𝔥(\rho({\mathfrak{g}})x)({\mathfrak{h}})=x({\mathfrak{g}}^{-1}{\mathfrak{h}})( italic_ρ ( fraktur_g ) italic_x ) ( fraktur_h ) = italic_x ( fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT fraktur_h )747474The representation of 𝔊𝔊{\mathfrak{G}}fraktur_G acting on functions defined on 𝔊𝔊{\mathfrak{G}}fraktur_G itself is called the regular representation of 𝔊𝔊{\mathfrak{G}}fraktur_G.. Just like before, the inner product is defined by integrating the point-wise product of the signal and the filter over the domain, which now equals Ω=𝔊Ω𝔊\Omega={\mathfrak{G}}roman_Ω = fraktur_G. In our example of spherical convolution, a second layer of convolution would thus have the form

((xθ)ϕ)(𝐑)=SO(3)(xθ)(𝐐)ϕ(𝐑1𝐐)d𝐐.𝑥𝜃italic-ϕ𝐑subscriptSO3𝑥𝜃𝐐italic-ϕsuperscript𝐑1𝐐differential-d𝐐((x\star\theta)\star\phi)(\mathbf{R})=\int_{\mathrm{SO}(3)}(x\star\theta)(\textbf{Q})\phi(\mathbf{R}^{-1}\mathbf{Q})\mathrm{d}\mathbf{Q}.( ( italic_x ⋆ italic_θ ) ⋆ italic_ϕ ) ( bold_R ) = ∫ start_POSTSUBSCRIPT roman_SO ( 3 ) end_POSTSUBSCRIPT ( italic_x ⋆ italic_θ ) ( Q ) italic_ϕ ( bold_R start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT bold_Q ) roman_d bold_Q .

컨볼루션은 도메인 ΩΩ\Omegaroman_Ω를 통해 통합해야 하는 내적 곱을 포함하기 때문에, 우리는 작은(이산적인 경우) 또는 낮은(연속적인 경우) 도메인 ΩΩ\Omegaroman_Ω에서만 사용할 수 있다. 예를 들어, 우리는 평면 2superscript2\mathbb{R}^{2}blackboard_R start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT (two dimensional) 또는 특수 직교 그룹 SE(3)SE3\operatorname{SE}(3)roman_SE ( 3 ) (three dimensional) 또는 그래프의 유한 노드 집합(n𝑛nitalic_n-dimensional)에서 콘볼루션을 사용할 수 있지만, 실제로는 n!𝑛n!italic_n ! 요소를 갖는 순열 그룹 ΣnsubscriptΣ𝑛\Sigma_{n}roman_Σ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT에서 콘볼루션을 수행할 수 없다. 마찬가지로, 총 6666 차원에 대해, 아핀 그룹(번역, 회전, 전단 및 스케일링을 포함함)과 같은 상위 차원 그룹을 통합하는 것은 실제로 실현 가능하지 않다. 그럼에도 불구하고, 섹션 5.3에서 본 바와 같이, 우리는 여전히 𝔊𝔊{\mathfrak{G}}fraktur_G가 작용하는 저차원 공간 ΩΩ\Omegaroman_Ω에 정의된 신호로 작업함으로써 큰 그룹 𝔊𝔊{\mathfrak{G}}fraktur_G에 대한 등분산 컨볼루션을 구축할 수 있다. 실제로, 두 도메인 사이의 임의의 등분산 선형 맵 f:𝒳(Ω)𝒳(Ω):𝑓𝒳Ω𝒳superscriptΩf:\mathcal{X}(\Omega)\rightarrow\mathcal{X}(\Omega^{\prime})italic_f : caligraphic_X ( roman_Ω ) → caligraphic_X ( roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ) Ω,ΩΩsuperscriptΩ\Omega,\Omega^{\prime}roman_Ω , roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT가 여기서 논의된 그룹 컨볼루션과 유사한 일반화된 컨볼루션으로서 기록될 수 있음을 보여주는 것이 가능하다.

둘째, 컨볼루션의 shift-equivariance 특성으로부터 이전 섹션에서 도출한 푸리에 변환은 대칭군의 기약적 표현의 행렬 요소에 신호를 투영함으로써 보다 일반적인 경우로 확장될 수 있다는 점에 주목한다. 우리는 향후 작업에서 이에 대해 논의할 것입니다. 여기에서 연구된 SO(3)SO3\operatorname{SO}(3)roman_SO ( 3 )의 경우, 이는 양자 역학 및 화학에서 넓은 응용 분야를 찾는 spherical harmonicsWigner D-functions을 생성한다.

마지막으로, 우리는 이 섹션에서 우리의 논의를 지금까지 뒷받침한 가정을 가리킵니다: ΩΩ\Omegaroman_Ω가 그리드, 평면 또는 구인지 여부, 모든 점을 다른 점으로 변환할 수 있습니다. 직관적으로 도메인 상의 모든 점을 의미함. 이러한 속성을 가진 도메인 ΩΩ\Omegaroman_Ωhomogeneous space이라고 합니다. 여기서, 임의의 u,vΩ𝑢𝑣Ωu,v\in\Omegaitalic_u , italic_v ∈ roman_Ω75757575The additional properties, 𝔢.u=uformulae-sequence𝔢𝑢𝑢\mathfrak{e}.u=ufraktur_e . italic_u = italic_u𝔤(𝔥.u)=(𝔤𝔥).u\mathfrak{g}(\mathfrak{h}.u)=(\mathfrak{gh}).ufraktur_g ( fraktur_h . italic_u ) = ( fraktur_g fraktur_h ) . italic_u 다음 절에서 우리는 이 가정을 완화하려고 노력할 것이다.

4.4 Geodesics and Manifolds

우리의 마지막 예에서, 스피어 𝕊2superscript𝕊2\mathbb{S}^{2}blackboard_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT 76767676As as the group of rotations SO(3)SO3\mathrm{SO}(3)roman_SO ( 3 ), by a Lie group. was a manifold albeit a special one with the global symmetry group due to its homogeneous structure. 불행히도, 일반적으로 전역 대칭을 갖지 않는 대부분의 다양체는 그렇지 않다. 이 경우, 우리는 ΩΩ\Omegaroman_Ω의 신호 공간에서 𝔊𝔊{\mathfrak{G}}fraktur_G의 액션을 직접 정의하고, 컨벌루션을 고전적 구성의 직접적인 일반화로 정의하기 위해 주변의 ‘슬라이드’ 필터에 사용할 수 없다. 그럼에도 불구하고 다양체는 메트릭 구조를 보존하는 변환과 로컬 참조 프레임 변경의 두 가지 유형의 불변성을 가지고 있다.

많은 기계 학습 독자들의 경우 다양체는 다소 이국적인 대상으로 나타날 수 있지만 실제로 다양한 과학 영역에서 매우 일반적이다. 물리학에서 다양체는 아인슈타인의 일반상대성이론에 따르면, 중력은 유사 리만니안 다양체로 모델링된 시공간의 곡률에서 비롯된다. 컴퓨터 그래픽과 비전과 같은 더 '전문적인' 분야에서 매니폴드는 3D 도형의 일반적인 수학적 모델이다. 777777The term ‘3D’ is somewhat misleading and refers to the embedding space. The shapes themselves are 2D manifolds (surfaces).이러한 모델의 광범위한 응용 범위는 가상 및 증강 현실과 모션 캡처로 얻은 특수 효과에서 3D 퍼즐 조각처럼 서로 붙어 있는 단백질 상호 작용을 다루는 구조 생물학에 이르기까지 다양하다. 이러한 응용의 공통 분모는 일부 3D 객체의 경계면을 표현하기 위해 매니폴드를 사용하는 것이다.

이러한 모델이 편리한 이유는 여러 가지가 있습니다. 787878 [Uncaptioned image] The human body is an example of a non-rigid object deforming in a nearly-isometric way. 첫째, 그들은 3D 객체에 대한 컴팩트한 설명을 제공하여 그리드 기반 표현에서 요구되는 것처럼 ‘빈 공간’에 메모리를 할당할 필요가 없다. 둘째, 객체의 내부 구조를 무시할 수 있도록 한다. 이것은 예를 들어 단백질 분자의 내부 접힘이 분자 표면에서 발생하는 상호 작용과 종종 관련이 없는 구조 생물학에서 편리한 특성이다. 셋째, 가장 중요한 것은 비강성 변형을 겪는 deformable objects을 처리해야 하는 경우가 많다는 것이다. 우리 자신의 몸은 그러한 예 중 하나이며, 앞서 언급한 모션 캡처 및 가상 아바타와 같은 컴퓨터 그래픽 및 비전 분야의 많은 응용 프로그램은 deformation invariance을 필요로 한다. 이러한 변형은 매니폴드가 주변 공간에 내장되는 방식에 관계없이 (리만니안) 매니폴드의 고유 구조, 즉 측정된 along 매니폴드 사이의 거리를 보존하는 변형으로서 매우 잘 모델링될 수 있다.

우리는 다양체가 기하 딥러닝 설계도에서 varying domains의 설정에 해당한다는 점을 강조해야 하며, 이러한 의미에서 그래프와 유사하다. 우리는 영역 변형에 대한 불변 개념의 중요성을 강조할 것이다 – 우리는 섹션 3.3에서 '기하학적 안정성'이라고 불렀다. 미분 기하학은 아마도 기계 학습 청중에게 덜 친숙하기 때문에 논의에 필요한 기본 개념을 소개하고 독자에게 자세한 설명을 위해 Penrose (2005)를 참조할 것이다.

Riemannian manifolds

다양체797979By ‘smooth’ we mean differentiable suffient number of times, which is tacitly assumed for convenience. ‘Deformed’ here means diffeomorphic, i.e., we can map between the two neighbourhoods using a smooth and invertible map with smooth inverse. 의 형식적 정의는 다소 관련되어 있기 때문에, 우리는 약간의 정밀도를 희생시키면서 직관적인 그림을 제공하는 것을 선호한다. 이러한 맥락에서, 우리는 (differentiable or smooth) 매니폴드를 locally Euclidean, 임의의 점 주위의 임의의 작은 이웃이 ssuperscript𝑠\mathbb{R}^{s}blackboard_R start_POSTSUPERSCRIPT italic_s end_POSTSUPERSCRIPT의 이웃으로 변형될 수 있다는 의미에서 부드러운 다차원 곡면이라고 생각할 수 있다; 이 경우 매니폴드는 s𝑠sitalic_s-dimensional이라고 한다. 이를 통해 tangent space TuΩsubscript𝑇𝑢ΩT_{u}\Omegaitalic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω를 통해 점 u𝑢uitalic_u 주변의 매니폴드를 로컬로 근사화할 수 있다. 후자는 원형 2차원 다양체인 구를 생각하고 한 점에 평면을 붙임으로써 시각화할 수 있다: 충분한 줌으로 구형 표면은 평면처럼 보일 것이다(그림 11). 80808080Formally, tangent bundle is the disjoint union TΩ=uΩTuΩ𝑇Ωsubscriptsquare-union𝑢Ωsubscript𝑇𝑢Ω\displaystyle T\Omega=\bigsqcup_{u\in\Omega}T_{u}\Omegaitalic_T roman_Ω = ⨆ start_POSTSUBSCRIPT italic_u ∈ roman_Ω end_POSTSUBSCRIPT italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω. 모든 접선 공간의 컬렉션은 tangent bundle, denoted TΩ𝑇ΩT\Omegaitalic_T roman_Ω; Section 4.5에서 번들의 개념을 좀 더 자세히 다룰 것이다.

A tangent vector, which we denote by XTuΩ𝑋subscript𝑇𝑢ΩX\in T_{u}\Omegaitalic_X ∈ italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω, can be thought of as a local displacement from point u𝑢uitalic_u. In order to measure the lengths of tangent vectors and angles between them, 818181A bilinear function g𝑔gitalic_g is said to be positive-definite if g(X,X)>0𝑔𝑋𝑋0g(X,X)>0italic_g ( italic_X , italic_X ) > 0 for any non-zero vector X0𝑋0X\neq 0italic_X ≠ 0. If g𝑔gitalic_g is expressed as a matrix 𝐆𝐆\mathbf{G}bold_G, it means 𝐆0succeeds𝐆0\mathbf{G}\succ 0bold_G ≻ 0. The determinant |𝐆|1/2superscript𝐆12|\mathbf{G}|^{1/2}| bold_G | start_POSTSUPERSCRIPT 1 / 2 end_POSTSUPERSCRIPT provides a local volume element, which does not depend on the choice of the basis. we need to equip the tangent space with additional structure, expressed as a positive-definite bilinear function gu:TuΩ×TuΩ:subscript𝑔𝑢subscript𝑇𝑢Ωsubscript𝑇𝑢Ωg_{u}:T_{u}\Omega\times T_{u}\Omega\rightarrow\mathbb{R}italic_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT : italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω × italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω → blackboard_R depending smoothly on u𝑢uitalic_u. Such a function is called a Riemannian metric, in honour of Bernhardt Riemann who introduced the concept in 1856, and can be thought of as an inner product on the tangent space, X,Yu=gu(X,Y)subscript𝑋𝑌𝑢subscript𝑔𝑢𝑋𝑌\langle X,Y\rangle_{u}=g_{u}(X,Y)⟨ italic_X , italic_Y ⟩ start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = italic_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_X , italic_Y ), which is an expression of the angle between any two tangent vectors X,YTuΩ𝑋𝑌subscript𝑇𝑢ΩX,Y\in T_{u}\Omegaitalic_X , italic_Y ∈ italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω. The metric also induces a norm Xu=gu1/2(X,X)subscriptnorm𝑋𝑢superscriptsubscript𝑔𝑢12𝑋𝑋\|X\|_{u}=g_{u}^{1/2}(X,X)∥ italic_X ∥ start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = italic_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 / 2 end_POSTSUPERSCRIPT ( italic_X , italic_X ) allowing to locally measure lengths of vectors.

We must stress that tangent vectors are abstract geometric entities that exists in their own right and are coordinate-free. If we are to express a tangent vector X𝑋Xitalic_X numerically as an array of numbers, we can only represent it as a list of coordinates 𝐱=(x1,,xs)𝐱subscript𝑥1subscript𝑥𝑠\mathbf{x}=(x_{1},\ldots,x_{s})bold_x = ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , italic_x start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT ) relative to some local basis828282Unfortunately, too often vectors are identified with their coordinates. To emphasise this important difference, we use X𝑋Xitalic_X to denote a tangent vector and 𝐱𝐱\mathbf{x}bold_x to denote its coordinates. {X1,Xs}TuΩsubscript𝑋1normal-…subscript𝑋𝑠subscript𝑇𝑢normal-Ω\{X_{1},\ldots X_{s}\}\subseteq T_{u}\Omega{ italic_X start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … italic_X start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT } ⊆ italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω. Similarly, the metric can be expressed as an s×s𝑠𝑠s\times sitalic_s × italic_s matrix 𝐆𝐆\mathbf{G}bold_G with elements gij=gu(Xi,Xj)subscript𝑔𝑖𝑗subscript𝑔𝑢subscript𝑋𝑖subscript𝑋𝑗g_{ij}=g_{u}(X_{i},X_{j})italic_g start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPT = italic_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_X start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_X start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ) in that basis. We will return to this point in Section 4.5.

Refer to caption
도 11:
Basic notions of Riemannian geometry illustrated on the example of the two-dimensional sphere 𝕊2={𝐮3:𝐮=1}superscript𝕊2conditional-set𝐮superscript3norm𝐮1\mathbb{S}^{2}=\{\mathbf{u}\in\mathbb{R}^{3}:\|\mathbf{u}\|=1\}blackboard_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT = { bold_u ∈ blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT : ∥ bold_u ∥ = 1 }, realised a subset (sub-manifold) of 3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT. The tangent space to the sphere is given as T𝐮𝕊2={𝐱3:𝐱𝐮=0}subscript𝑇𝐮superscript𝕊2conditional-set𝐱superscript3superscript𝐱top𝐮0T_{\mathbf{u}}\mathbb{S}^{2}=\{\mathbf{x}\in\mathbb{R}^{3}:\mathbf{x}^{\top}\mathbf{u}=0\}italic_T start_POSTSUBSCRIPT bold_u end_POSTSUBSCRIPT blackboard_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT = { bold_x ∈ blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT : bold_x start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT bold_u = 0 } and is a 2D plane – hence this is a 2-dimensional manifold. The Riemannian metric is simply the Euclidean inner product restricted to the tangent plane, 𝐱,𝐲𝐮=𝐱𝐲subscript𝐱𝐲𝐮superscript𝐱top𝐲\langle\mathbf{x},\mathbf{y}\rangle_{\mathbf{u}}=\mathbf{x}^{\top}\mathbf{y}⟨ bold_x , bold_y ⟩ start_POSTSUBSCRIPT bold_u end_POSTSUBSCRIPT = bold_x start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT bold_y for any 𝐱,𝐱T𝐮𝕊2𝐱𝐱subscript𝑇𝐮superscript𝕊2\mathbf{x},\mathbf{x}\in T_{\mathbf{u}}\mathbb{S}^{2}bold_x , bold_x ∈ italic_T start_POSTSUBSCRIPT bold_u end_POSTSUBSCRIPT blackboard_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT. The exponential map is given by exp𝐮(𝐱)=cos(𝐱)𝐮+sin(𝐱)𝐱𝐱subscript𝐮𝐱norm𝐱𝐮norm𝐱norm𝐱𝐱\exp_{\mathbf{u}}(\mathbf{x})=\cos(\|\mathbf{x}\|)\mathbf{u}+\frac{\sin(\|\mathbf{x}\|)}{\|\mathbf{x}\|}\mathbf{x}roman_exp start_POSTSUBSCRIPT bold_u end_POSTSUBSCRIPT ( bold_x ) = roman_cos ( ∥ bold_x ∥ ) bold_u + divide start_ARG roman_sin ( ∥ bold_x ∥ ) end_ARG start_ARG ∥ bold_x ∥ end_ARG bold_x, for 𝐱T𝐮𝕊2𝐱subscript𝑇𝐮superscript𝕊2\mathbf{x}\in T_{\mathbf{u}}\mathbb{S}^{2}bold_x ∈ italic_T start_POSTSUBSCRIPT bold_u end_POSTSUBSCRIPT blackboard_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT. Geodesics are great arcs of length d(𝐮,𝐯)=cos1(𝐮𝐯)𝑑𝐮𝐯superscript1superscript𝐮top𝐯d(\mathbf{u},\mathbf{v})=\cos^{-1}(\mathbf{u}^{\top}\mathbf{v})italic_d ( bold_u , bold_v ) = roman_cos start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ( bold_u start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT bold_v ).

메트릭이 장착된 매니폴드를 Riemannian manifold이라고 하며 메트릭으로 완전히 표현할 수 있는 속성은 intrinsic이라고 한다. 이것은 우리의 템플릿에 따라, 우리는 isometries이라는 메트릭 보존 변환에 불변하는 ΩΩ\Omegaroman_Ω에 정의된 신호에 작용하는 함수를 구성하려고 할 것이다. 838383[Uncaptioned image] 이 결과는 Embedding Theorem, due to Nash (1956)로 알려져 있습니다. 종이접기의 기술은 3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT에서 평면 표면의 서로 다른 등척성 임베딩의 발현이다(그림: Shutterstock/300 librarians). 이러한 결과는 대략적인 등측량을 다루는 것으로 더 확장될 수 있으며, 따라서 이것은 우리의 설계도에서 논의된 기하학적 안정성(도메인 변형)의 사례이다.

우리가 언급했듯이, 리만 다양체의 정의는 어떤 공간에서도 기하학적 실현을 필요로 하지 않지만, 임의의 매끄러운 리만 다양체는 리만 계량법을 유도하기 위해 유클리드 공간의 구조를 사용함으로써 충분히 고차원의 유클리드 공간의 부분집합으로 실현될 수 있다는 것이 밝혀졌다. 그러나 이러한 임베딩은 반드시 고유한 것은 아니며, 우리가 볼 수 있듯이 리만 메트릭의 두 가지 다른 등척성 구현이 가능하다.

Scalar and Vector fields

우리는 ΩΩ\Omegaroman_Ω에 정의된 신호에 관심이 있기 때문에, 다양체 상에서 스칼라 및 벡터값 함수의 적절한 개념을 제공할 필요가 있다. A(smooth) scalar fieldx:Ω:𝑥Ωx:\Omega\rightarrow\mathbb{R}italic_x : roman_Ω → blackboard_R 형태의 함수이다. 848484[Uncaptioned image]
Example of a scalar field.
Scalar fields form a vector space 𝒳(Ω,)𝒳Ω\mathcal{X}(\Omega,\mathbb{R})caligraphic_X ( roman_Ω , blackboard_R ) can be equipped with inner product

x,y=Ωx(u)y(u)du,𝑥𝑦subscriptΩ𝑥𝑢𝑦𝑢differential-d𝑢\langle x,y\rangle=\int_{\Omega}x(u)y(u)\mathrm{d}u,⟨ italic_x , italic_y ⟩ = ∫ start_POSTSUBSCRIPT roman_Ω end_POSTSUBSCRIPT italic_x ( italic_u ) italic_y ( italic_u ) roman_d italic_u , (15)

where dud𝑢\mathrm{d}uroman_d italic_u is the volume element induced by the Riemannian metric. A (smooth) tangent vector field is a function of the form X:ΩTΩ:𝑋Ω𝑇ΩX:\Omega\rightarrow T\Omegaitalic_X : roman_Ω → italic_T roman_Ω assigning to each point a tangent vector in the respective tangent space, uX(u)TuΩmaps-to𝑢𝑋𝑢subscript𝑇𝑢Ωu\mapsto X(u)\in T_{u}\Omegaitalic_u ↦ italic_X ( italic_u ) ∈ italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω. Vector fields858585[Uncaptioned image]
Example of a vector field. The fields are typically assumed to be of the same regularity class (smoothness) as the manifold itself.
also form a vector space 𝒳(Ω,TΩ)𝒳Ω𝑇Ω\mathcal{X}(\Omega,T\Omega)caligraphic_X ( roman_Ω , italic_T roman_Ω ) with the inner product defined through the Riemannian metric,

X,Y=Ωgu(X(u),Y(u))du.𝑋𝑌subscriptΩsubscript𝑔𝑢𝑋𝑢𝑌𝑢differential-d𝑢\langle X,Y\rangle=\int_{\Omega}g_{u}(X(u),Y(u))\mathrm{d}u.⟨ italic_X , italic_Y ⟩ = ∫ start_POSTSUBSCRIPT roman_Ω end_POSTSUBSCRIPT italic_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_X ( italic_u ) , italic_Y ( italic_u ) ) roman_d italic_u . (16)

Intrinsic gradient

Another way to think of (and actually define) vector fields is as a generalised notion of derivative. In classical calculus, one can locally linearise a (smooth) function through the differential dx(u)=x(u+du)x(u)d𝑥𝑢𝑥𝑢d𝑢𝑥𝑢\mathrm{d}x(u)=x(u+\mathrm{d}u)-x(u)roman_d italic_x ( italic_u ) = italic_x ( italic_u + roman_d italic_u ) - italic_x ( italic_u ), which provides the change of the value of the function x𝑥xitalic_x at point u𝑢uitalic_u as a result of an inifinitesimal displacement dud𝑢\mathrm{d}uroman_d italic_u. However, in our case the naïve use of this definition is impossible, since expressions of the form “u+du𝑢d𝑢u+\mathrm{d}uitalic_u + roman_d italic_u” are meaningless on manifolds due to the lack of a global vector space structure.

The solution is to use tangent vectors as a model of local infinitesimal displacement. Given a smooth scalar field x𝒳(Ω,)𝑥𝒳Ωx\in\mathcal{X}(\Omega,\mathbb{R})italic_x ∈ caligraphic_X ( roman_Ω , blackboard_R ), we can think of a (smooth) vector field as a linear map Y:𝒳(Ω,)𝒳(Ω,):𝑌𝒳Ω𝒳ΩY:\mathcal{X}(\Omega,\mathbb{R})\rightarrow\mathcal{X}(\Omega,\mathbb{R})italic_Y : caligraphic_X ( roman_Ω , blackboard_R ) → caligraphic_X ( roman_Ω , blackboard_R ) satisfying the properties of a derivation: Y(c)=0𝑌𝑐0Y(c)=0italic_Y ( italic_c ) = 0 for any constant c𝑐citalic_c (corresponding to the intuition that constant functions have vanishing derivatives), Y(x+z)=Y(x)+Y(z)𝑌𝑥𝑧𝑌𝑥𝑌𝑧Y(x+z)=Y(x)+Y(z)italic_Y ( italic_x + italic_z ) = italic_Y ( italic_x ) + italic_Y ( italic_z ) (linearity), and Y(xz)=Y(x)z+xY(z)𝑌𝑥𝑧𝑌𝑥𝑧𝑥𝑌𝑧Y(xz)=Y(x)z+xY(z)italic_Y ( italic_x italic_z ) = italic_Y ( italic_x ) italic_z + italic_x italic_Y ( italic_z ) (product or Leibniz rule), for any smooth scalar fields x,z𝒳(Ω,)𝑥𝑧𝒳Ωx,z\in\mathcal{X}(\Omega,\mathbb{R})italic_x , italic_z ∈ caligraphic_X ( roman_Ω , blackboard_R ). It can be shown that one can use these properties to define vector fields axiomatically. The differential dx(Y)=Y(x)d𝑥𝑌𝑌𝑥\mathrm{d}x(Y)=Y(x)roman_d italic_x ( italic_Y ) = italic_Y ( italic_x ) can be viewed as an operator (u,Y)Y(x)maps-to𝑢𝑌𝑌𝑥(u,Y)\mapsto Y(x)( italic_u , italic_Y ) ↦ italic_Y ( italic_x ) and interpreted as follows: the change of x𝑥xitalic_x as the result of displacement YTuΩ𝑌subscript𝑇𝑢ΩY\in T_{u}\Omegaitalic_Y ∈ italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω at point u𝑢uitalic_u is given by dux(Y)subscriptd𝑢𝑥𝑌\mathrm{d}_{u}x(Y)roman_d start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT italic_x ( italic_Y ). 868686Importantly, this construction does not use the Riemannian metric whatsoever and can thus can be extended to a more general construction of bundles discussed in the Section 4.5. It is thus an extension of the classical notion of directional derivative.

Alternatively, at each point u𝑢uitalic_u the differential can be regarded as a linear functional dxu:TuΩ:dsubscript𝑥𝑢subscript𝑇𝑢Ω\mathrm{d}x_{u}:T_{u}\Omega\rightarrow\mathbb{R}roman_d italic_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT : italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω → blackboard_R acting on tangent vectors XTuΩ𝑋subscript𝑇𝑢ΩX\in T_{u}\Omegaitalic_X ∈ italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω. Linear functionals on a vector space are called dual vectors or covectors; if in addition we are given an inner product (Riemannian metric), a dual vector can always be represented as

dxu(X)=gu(x(u),X).dsubscript𝑥𝑢𝑋subscript𝑔𝑢𝑥𝑢𝑋\mathrm{d}x_{u}(X)=g_{u}(\nabla x(u),X).roman_d italic_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_X ) = italic_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( ∇ italic_x ( italic_u ) , italic_X ) .

The representation of the differential at point u𝑢uitalic_u is a tangent vector x(u)TuΩ𝑥𝑢subscript𝑇𝑢Ω\nabla x(u)\in T_{u}\Omega∇ italic_x ( italic_u ) ∈ italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω called the (intrinsic) gradient of x𝑥xitalic_x; similarly to the gradient in classical calculus, it can be thought of as the direction of the steepest increase of x𝑥xitalic_x. The gradient considered as an operator :𝒳(Ω,)𝒳(Ω,TΩ):𝒳Ω𝒳Ω𝑇Ω\nabla:\mathcal{X}(\Omega,\mathbb{R})\rightarrow\mathcal{X}(\Omega,T\Omega)∇ : caligraphic_X ( roman_Ω , blackboard_R ) → caligraphic_X ( roman_Ω , italic_T roman_Ω ) assigns at each point x(u)x(u)TuΩmaps-to𝑥𝑢𝑥𝑢subscript𝑇𝑢Ωx(u)\mapsto\nabla x(u)\in T_{u}\Omegaitalic_x ( italic_u ) ↦ ∇ italic_x ( italic_u ) ∈ italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω; thus, the gradient of a scalar field x𝑥xitalic_x is a vector field x𝑥\nabla x∇ italic_x.

Geodesics

Now consider a smooth curve γ:[0,T]Ω:𝛾0𝑇Ω\gamma:[0,T]\rightarrow\Omegaitalic_γ : [ 0 , italic_T ] → roman_Ω on the manifold with endpoints u=γ(0)𝑢𝛾0u=\gamma(0)italic_u = italic_γ ( 0 ) and v=γ(T)𝑣𝛾𝑇v=\gamma(T)italic_v = italic_γ ( italic_T ). The derivative of the curve at point t𝑡titalic_t is a tangent vector γ(t)Tγ(t)Ωsuperscript𝛾𝑡subscript𝑇𝛾𝑡Ω\gamma^{\prime}(t)\in T_{\gamma(t)}\Omegaitalic_γ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_t ) ∈ italic_T start_POSTSUBSCRIPT italic_γ ( italic_t ) end_POSTSUBSCRIPT roman_Ω called the velocity vector. 888888It is tacitly assumed that curves are given in arclength parametrisation, such that γ=1normsuperscript𝛾1\|\gamma^{\prime}\|=1∥ italic_γ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ∥ = 1 (constant velocity).Among all the curves connecting points u𝑢uitalic_u and v𝑣vitalic_v, we are interested in those of minimum length, i.e., we are seeking γ𝛾\gammaitalic_γ minimising the length functional

(γ)=0Tγ(t)γ(t)dt=0Tgγ(t)1/2(γ(t),γ(t))dt.𝛾superscriptsubscript0𝑇subscriptnormsuperscript𝛾𝑡𝛾𝑡differential-d𝑡superscriptsubscript0𝑇superscriptsubscript𝑔𝛾𝑡12superscript𝛾𝑡superscript𝛾𝑡differential-d𝑡\ell(\gamma)=\int_{0}^{T}\|\gamma^{\prime}(t)\|_{\gamma(t)}\mathrm{d}t=\int_{0}^{T}g_{\gamma(t)}^{1/2}(\gamma^{\prime}(t),\gamma^{\prime}(t))\mathrm{d}t.roman_ℓ ( italic_γ ) = ∫ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT ∥ italic_γ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_t ) ∥ start_POSTSUBSCRIPT italic_γ ( italic_t ) end_POSTSUBSCRIPT roman_d italic_t = ∫ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT italic_g start_POSTSUBSCRIPT italic_γ ( italic_t ) end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 / 2 end_POSTSUPERSCRIPT ( italic_γ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_t ) , italic_γ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_t ) ) roman_d italic_t .

이러한 곡선은 geodesics(from the Greek γεοδαιςία, literally 'division of Earth')로 불리며 미분 기하학에서 중요한 역할을 한다. 결정적으로, 우리의 논의에서, 우리가 측지학을 정의한 방식은 (길이 함수를 통해) 리만 미터법에만 의존하기 때문에 내재적이다.

미분 기하학에 정통한 독자는 지오데릭이 더 일반적인 개념임을 상기할 수 있으며 실제로 그들의 정의는 반드시 Riemannian 메트릭을 필요로 하지 않지만 connection (covariant derivative이라고도 하며, 이는 미분 구성과 유사하게 공리적으로 정의됩니다. 리만 메트릭이 주어지면 리만 기하학에서 종종 암묵적으로 가정되는 898989The Levi-Civita connection is torsion-free and compatible with the metric. The Fundamental Theorem of Riemannian geometry guarantees its existence and uniqueness. Levi-Civita connection이라는 고유한 특수 연결이 있습니다. 이 연결에서 발생하는 측지선은 위에서 정의한 길이 최소화 곡선이다.

다음으로 측지학을 사용하여 다양체 상의 접선 벡터를 전송하는 방법을 정의하고(평행 전송), 다양체에서 접선 공간으로 로컬 고유 지도를 작성하고(지수 맵), 거리를 정의하는 방법(측지 메트릭)을 보여 줄 것이다. 이를 통해 접선 공간에서 국소적으로 필터를 적용하여 컨볼루션과 같은 연산을 구성할 수 있다.

Parallel transport

909090[Uncaptioned image] Euclidean transport of a vector from A to C makes no sense on the sphere, as the resulting vectors (red) are not in the tangent plane. Parallel transport from A to C (blue) rotates the vector along the path. It is path dependent: going along the path BC and ABC produces different results.

One issue we have already encountered when dealing with manifolds is that we cannot directly add or subtract two points u,vΩ𝑢𝑣Ωu,v\in\Omegaitalic_u , italic_v ∈ roman_Ω. The same problem arises when trying to compare tangent vectors at different points: though they have the same dimension, they belong to different spaces, e.g. XTuΩ𝑋subscript𝑇𝑢ΩX\in T_{u}\Omegaitalic_X ∈ italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω and YTvΩ𝑌subscript𝑇𝑣ΩY\in T_{v}\Omegaitalic_Y ∈ italic_T start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT roman_Ω, and thus not directly comparable. Geodesics provide a mechanism to move vectors from one point to another, in the following way: let γ𝛾\gammaitalic_γ be a geodesic connecting points u=γ(0)𝑢𝛾0u=\gamma(0)italic_u = italic_γ ( 0 ) and v=γ(T)𝑣𝛾𝑇v=\gamma(T)italic_v = italic_γ ( italic_T ) and let XTuΩ𝑋subscript𝑇𝑢ΩX\in T_{u}\Omegaitalic_X ∈ italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω. We can define a new set of tangent vectors along the geodesic, X(t)Tγ(t)Ω𝑋𝑡subscript𝑇𝛾𝑡ΩX(t)\in T_{\gamma(t)}\Omegaitalic_X ( italic_t ) ∈ italic_T start_POSTSUBSCRIPT italic_γ ( italic_t ) end_POSTSUBSCRIPT roman_Ω such that the length of X(t)𝑋𝑡X(t)italic_X ( italic_t ) and the angle (expressed through the Riemannian metric) between it and the velocity vector of the curve is constant,

gγ(t)(X(t),γ(t))=gu(X,γ(0))=const,X(t)γ(t)=Xu=const.formulae-sequencesubscript𝑔𝛾𝑡𝑋𝑡superscript𝛾𝑡subscript𝑔𝑢𝑋superscript𝛾0constsubscriptnorm𝑋𝑡𝛾𝑡subscriptnorm𝑋𝑢constg_{\gamma(t)}(X(t),\gamma^{\prime}(t))=g_{u}(X,\gamma^{\prime}(0))=\mathrm{const},\quad\quad\|X(t)\|_{\gamma(t)}=\|X\|_{u}=\mathrm{const}.italic_g start_POSTSUBSCRIPT italic_γ ( italic_t ) end_POSTSUBSCRIPT ( italic_X ( italic_t ) , italic_γ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_t ) ) = italic_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_X , italic_γ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( 0 ) ) = roman_const , ∥ italic_X ( italic_t ) ∥ start_POSTSUBSCRIPT italic_γ ( italic_t ) end_POSTSUBSCRIPT = ∥ italic_X ∥ start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = roman_const .

As a result, we get a unique vector X(T)TvΩ𝑋𝑇subscript𝑇𝑣ΩX(T)\in T_{v}\Omegaitalic_X ( italic_T ) ∈ italic_T start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT roman_Ω at the end point v𝑣vitalic_v.

The map Γuv(X):TuΩTuΩ:subscriptΓ𝑢𝑣𝑋subscript𝑇𝑢Ωsubscript𝑇𝑢Ω\Gamma_{u\rightarrow v}(X):T_{u}\Omega\rightarrow T_{u}\Omegaroman_Γ start_POSTSUBSCRIPT italic_u → italic_v end_POSTSUBSCRIPT ( italic_X ) : italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω → italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω and TvΩsubscript𝑇𝑣ΩT_{v}\Omegaitalic_T start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT roman_Ω defined as Γuv(X)=X(T)subscriptΓ𝑢𝑣𝑋𝑋𝑇\Gamma_{u\rightarrow v}(X)=X(T)roman_Γ start_POSTSUBSCRIPT italic_u → italic_v end_POSTSUBSCRIPT ( italic_X ) = italic_X ( italic_T ) using the above notation is called parallel transport or connection; the latter term implying it is a mechanism to ‘connect’ between the tangent spaces TuΩsubscript𝑇𝑢ΩT_{u}\Omegaitalic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω and TvΩsubscript𝑇𝑣ΩT_{v}\Omegaitalic_T start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT roman_Ω. Due to the angle and length preservation conditions, parallel transport amounts to only rotation of the vector, so it can be associated with an element of the special orthogonal group SO(s)SO𝑠\mathrm{SO}(s)roman_SO ( italic_s ) (called the structure group of the tangent bundle),919191Assuming that the manifold is orientable, otherwise O(s)O𝑠\mathrm{O}(s)roman_O ( italic_s ).which we will denote by 𝔤uvsubscript𝔤𝑢𝑣{\mathfrak{g}}_{u\rightarrow v}fraktur_g start_POSTSUBSCRIPT italic_u → italic_v end_POSTSUBSCRIPT and discuss in further detail in Section 4.5.

앞서 언급했듯이 연결은 리만 미터법과 공리적으로 독립적으로 정의될 수 있으며, 따라서 부드러운 곡선을 따라 병렬 수송에 대한 추상적인 개념을 제공한다. 그러나 이러한 운송의 결과는 취한 경로에 따라 다르다.

Exponential map

Locally around a point u𝑢uitalic_u, it is always possible to define a unique geodesic in a given direction XTuΩ𝑋subscript𝑇𝑢ΩX\in T_{u}\Omegaitalic_X ∈ italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω, i.e. such that γ(0)=u𝛾0𝑢\gamma(0)=uitalic_γ ( 0 ) = italic_u and γ(0)=Xsuperscript𝛾0𝑋\gamma^{\prime}(0)=Xitalic_γ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( 0 ) = italic_X. When γX(t)subscript𝛾𝑋𝑡\gamma_{X}(t)italic_γ start_POSTSUBSCRIPT italic_X end_POSTSUBSCRIPT ( italic_t ) is defined for all t0𝑡0t\geq 0italic_t ≥ 0 (that is, we can shoot the geodesic from a point u𝑢uitalic_u for as long as we like), the manifold is said to be geodesically complete and the exponential map is defined on the whole tangent space. Since compact manifolds are geodesically complete, we can tacitly assume this convenient property.

This definition of geodesic provided a point and a direction gives a natural mapping from (a subset of) the tangent space TuΩsubscript𝑇𝑢ΩT_{u}\Omegaitalic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω to ΩΩ\Omegaroman_Ω called the exponential map929292 Note that geodesic completeness does not necessarily guarantee that exp\exproman_exp is a global diffeomorphism – the largest radius r𝑟ritalic_r about u𝑢uitalic_u for which expu(Br(0)TuΩ)subscript𝑢subscript𝐵𝑟0subscript𝑇𝑢normal-Ω\exp_{u}(B_{r}(0)\subseteq T_{u}\Omega)roman_exp start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_B start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT ( 0 ) ⊆ italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω ) is mapped diffeomorphically is called the injectivity radius. exp:Br(0)TuΩΩnormal-:subscript𝐵𝑟0subscript𝑇𝑢normal-Ωnormal-→normal-Ω\exp:B_{r}(0)\subset T_{u}\Omega\rightarrow\Omegaroman_exp : italic_B start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT ( 0 ) ⊂ italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω → roman_Ω, which is defined by taking a unit step along the geodesic in the direction X𝑋Xitalic_X, i.e., expu(X)=γX(1)subscript𝑢𝑋subscript𝛾𝑋1\exp_{u}(X)=\gamma_{X}(1)roman_exp start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_X ) = italic_γ start_POSTSUBSCRIPT italic_X end_POSTSUBSCRIPT ( 1 ). The exponential map expusubscript𝑢\exp_{u}roman_exp start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT is a local diffeomorphism, as it deforms the neighbourhood Br(0)subscript𝐵𝑟0B_{r}(0)italic_B start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT ( 0 ) (a ball or radius r𝑟ritalic_r) of the origin on TuΩsubscript𝑇𝑢ΩT_{u}\Omegaitalic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω into a neighbourhood of u𝑢uitalic_u. Conversely, one can also regard the exponential map as an intrinsic local deformation (‘flattening’) of the manifold into the tangent space.

Geodesic distances

Hopf-Rinow Theorem 939393Hopf-Rinow Theorem thus estabilishes the equivalence between geodesic and metric completeness, the latter meaning every Cauchy sequence converges in the geodesic distance metric.guarantees that geodesically complete manifolds is also complete metric spaces 이며, 이 값은 거리를 실현할 수 있습니다 (geodesic distance 또는 metric)

dg(u,v)=minγ(γ)s.t.γ(0)=u,γ(T)=v,formulae-sequencesubscript𝑑𝑔𝑢𝑣subscript𝛾𝛾s.t.formulae-sequence𝛾0𝑢𝛾𝑇𝑣d_{g}(u,v)=\min_{\gamma}\ell(\gamma)\quad\quad\text{s.t.}\quad\quad\gamma(0)=u,\,\,\gamma(T)=v,italic_d start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT ( italic_u , italic_v ) = roman_min start_POSTSUBSCRIPT italic_γ end_POSTSUBSCRIPT roman_ℓ ( italic_γ ) s.t. italic_γ ( 0 ) = italic_u , italic_γ ( italic_T ) = italic_v ,

가 존재하는 경우(즉, 최소값에 도달함). 949494Note the term'metric' is used in two senses: Riemannian metric g𝑔gitalic_g and distance d𝑑ditalic_d. 혼란을 피하기 위해 우리는 후자를 가리키는 '거리'라는 용어를 사용할 것이다. 우리의 표기법 dgsubscript𝑑𝑔d_{g}italic_d start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT는 거리를 Riemannian metric g𝑔gitalic_g에 의존하게 만들지만, 측지 길이의 정의 L𝐿Litalic_L는 그렇지 않다.

Isometries

Consider now a deformation of our manifold ΩΩ\Omegaroman_Ω into another manifold Ω~~Ω\tilde{\Omega}over~ start_ARG roman_Ω end_ARG with a Riemannian metric hhitalic_h, which we assume to be a diffeomorphism η:(Ω,g)(Ω~,h):𝜂Ω𝑔~Ω\eta:(\Omega,g)\rightarrow(\tilde{\Omega},h)italic_η : ( roman_Ω , italic_g ) → ( over~ start_ARG roman_Ω end_ARG , italic_h ) between the manifolds. Its differential dη:TΩTΩ~:d𝜂𝑇Ω𝑇~Ω\mathrm{d}\eta:T\Omega\rightarrow T\tilde{\Omega}roman_d italic_η : italic_T roman_Ω → italic_T over~ start_ARG roman_Ω end_ARG defines a map between the respective tangent bundles (referred to as pushforward), such that at a point u𝑢uitalic_u, we have dηu:TuΩTη(u)Ω~:dsubscript𝜂𝑢subscript𝑇𝑢Ωsubscript𝑇𝜂𝑢~Ω\mathrm{d}\eta_{u}:T_{u}\Omega\rightarrow T_{\eta(u)}\tilde{\Omega}roman_d italic_η start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT : italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω → italic_T start_POSTSUBSCRIPT italic_η ( italic_u ) end_POSTSUBSCRIPT over~ start_ARG roman_Ω end_ARG, interpreted as before: if we make a small displacement from point u𝑢uitalic_u by tangent vector XTuΩ𝑋subscript𝑇𝑢ΩX\in T_{u}\Omegaitalic_X ∈ italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω, the map η𝜂\etaitalic_η will be displaced from point η(u)𝜂𝑢\eta(u)italic_η ( italic_u ) by tangent vector dηu(X)Tη(u)Ω~dsubscript𝜂𝑢𝑋subscript𝑇𝜂𝑢~Ω\mathrm{d}\eta_{u}(X)\in T_{\eta(u)}\tilde{\Omega}roman_d italic_η start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_X ) ∈ italic_T start_POSTSUBSCRIPT italic_η ( italic_u ) end_POSTSUBSCRIPT over~ start_ARG roman_Ω end_ARG.

Since the pushforward959595Pushforward and pullback are adjoint operators η*α,X=α,η*Xsuperscript𝜂𝛼𝑋𝛼subscript𝜂𝑋\langle\eta^{*}\alpha,X\rangle=\langle\alpha,\eta_{*}X\rangle⟨ italic_η start_POSTSUPERSCRIPT * end_POSTSUPERSCRIPT italic_α , italic_X ⟩ = ⟨ italic_α , italic_η start_POSTSUBSCRIPT * end_POSTSUBSCRIPT italic_X ⟩ where αT*Ω𝛼superscript𝑇Ω\alpha\in T^{*}\Omegaitalic_α ∈ italic_T start_POSTSUPERSCRIPT * end_POSTSUPERSCRIPT roman_Ω is a dual vector field, defined at each point as a linear functional acting on TuΩsubscript𝑇𝑢ΩT_{u}\Omegaitalic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω and the inner products are defined respectively on vector and dual vector fields. provides a mechanism to associate tangent vectors on the two manifolds, it allows to pullback the metric hhitalic_h from Ω~~Ω\tilde{\Omega}over~ start_ARG roman_Ω end_ARG to ΩΩ\Omegaroman_Ω,

(η*h)u(X,Y)=hη(u)(dηu(X),dηu(Y))subscriptsuperscript𝜂𝑢𝑋𝑌subscript𝜂𝑢dsubscript𝜂𝑢𝑋dsubscript𝜂𝑢𝑌(\eta^{*}h)_{u}(X,Y)=h_{\eta(u)}(\mathrm{d}\eta_{u}(X),\mathrm{d}\eta_{u}(Y))( italic_η start_POSTSUPERSCRIPT * end_POSTSUPERSCRIPT italic_h ) start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_X , italic_Y ) = italic_h start_POSTSUBSCRIPT italic_η ( italic_u ) end_POSTSUBSCRIPT ( roman_d italic_η start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_X ) , roman_d italic_η start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_Y ) )

풀백 메트릭이 모든 지점에서 ΩΩ\Omegaroman_Ω, 즉 g=η*h𝑔superscript𝜂g=\eta^{*}hitalic_g = italic_η start_POSTSUPERSCRIPT * end_POSTSUPERSCRIPT italic_h, 맵 η𝜂\etaitalic_η를 (a Riemannian) isometry이라고 한다. 2차원 다양체(표면)의 경우, 등축계는 다양체를 '신축'하거나 '찢어짐'하지 않고 변형시키는 비탄성 변형으로 직관적으로 이해될 수 있다.

그들의 정의 덕분에 등측량은 지오데식 거리와 같은 고유 구조를 보존하며, 이는 전적으로 리만 미터법으로 표현된다. 따라서 거리 보존 맵(‘metric isometries’) between metric spaces η:(Ω,dg)(Ω~,dh):𝜂Ωsubscript𝑑𝑔~Ωsubscript𝑑\eta:(\Omega,d_{g})\rightarrow(\tilde{\Omega},d_{h})italic_η : ( roman_Ω , italic_d start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT ) → ( over~ start_ARG roman_Ω end_ARG , italic_d start_POSTSUBSCRIPT italic_h end_POSTSUBSCRIPT )와 같이 메트릭 기하학의 위치로부터 isometries를 이해할 수도 있다.

dg(u,v)=dh(η(u),η(v))subscript𝑑𝑔𝑢𝑣subscript𝑑𝜂𝑢𝜂𝑣d_{g}(u,v)=d_{h}(\eta(u),\eta(v))italic_d start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT ( italic_u , italic_v ) = italic_d start_POSTSUBSCRIPT italic_h end_POSTSUBSCRIPT ( italic_η ( italic_u ) , italic_η ( italic_v ) )

for all u,vΩ𝑢𝑣Ωu,v\in\Omegaitalic_u , italic_v ∈ roman_Ω, or more compactly, dg=dh(η×η)subscript𝑑𝑔subscript𝑑𝜂𝜂d_{g}=d_{h}\circ(\eta\times\eta)italic_d start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT = italic_d start_POSTSUBSCRIPT italic_h end_POSTSUBSCRIPT ∘ ( italic_η × italic_η ). 즉, 리만형 등량계도 미터법 등량계이다. connected manifolds, the converse is also true: every metric isometry is also a Riemannian isometry. 969696This result is known as the Myers–Steenrod Theorem. We tacitly assume our manifolds to be connected.

우리의 기하 딥러닝 청사진에서 η𝜂\etaitalic_η는 도메인 변형의 모델이다. η𝜂\etaitalic_η가 등량인 경우, 임의의 고유량은 이러한 변형에 영향을 받지 않는다. 하나는 metric dilation의 개념을 통해 정확한(metric) isometries를 일반화할 수 있다.

dil(η)=supuvΩdh(η(u),η(v))dg(u,v)dil𝜂subscriptsupremum𝑢𝑣Ωsubscript𝑑𝜂𝑢𝜂𝑣subscript𝑑𝑔𝑢𝑣\mathrm{dil}(\eta)=\sup_{u\neq v\in\Omega}\frac{d_{h}(\eta(u),\eta(v))}{d_{g}(u,v)}roman_dil ( italic_η ) = roman_sup start_POSTSUBSCRIPT italic_u ≠ italic_v ∈ roman_Ω end_POSTSUBSCRIPT divide start_ARG italic_d start_POSTSUBSCRIPT italic_h end_POSTSUBSCRIPT ( italic_η ( italic_u ) , italic_η ( italic_v ) ) end_ARG start_ARG italic_d start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT ( italic_u , italic_v ) end_ARG

or metric distortion

dis(η)=supu,vΩ|dh(η(u),η(v))dg(u,v)|,dis𝜂subscriptsupremum𝑢𝑣Ωsubscript𝑑𝜂𝑢𝜂𝑣subscript𝑑𝑔𝑢𝑣\mathrm{dis}(\eta)=\sup_{u,v\in\Omega}|d_{h}(\eta(u),\eta(v))-d_{g}(u,v)|,roman_dis ( italic_η ) = roman_sup start_POSTSUBSCRIPT italic_u , italic_v ∈ roman_Ω end_POSTSUBSCRIPT | italic_d start_POSTSUBSCRIPT italic_h end_POSTSUBSCRIPT ( italic_η ( italic_u ) , italic_η ( italic_v ) ) - italic_d start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT ( italic_u , italic_v ) | ,

which capture the relative and absolute change of the geodesic distances under η𝜂\etaitalic_η, respectively. The condition (5) for the stability of a function f(𝒳(Ω))𝑓𝒳Ωf\in\mathcal{F}(\mathcal{X}(\Omega))italic_f ∈ caligraphic_F ( caligraphic_X ( roman_Ω ) ) under domain deformation can be rewritten in this case as

f(x,Ω)f(xη1,Ω~)Cxdis(η).norm𝑓𝑥Ω𝑓𝑥superscript𝜂1~Ω𝐶norm𝑥dis𝜂\|f(x,\Omega)-f(x\circ\eta^{-1},\tilde{\Omega})\|\leq C\|x\|\mathrm{dis}(\eta).∥ italic_f ( italic_x , roman_Ω ) - italic_f ( italic_x ∘ italic_η start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT , over~ start_ARG roman_Ω end_ARG ) ∥ ≤ italic_C ∥ italic_x ∥ roman_dis ( italic_η ) .

Intrinsic symmetries

A particular case of the above is a diffeomorphism of the domain itself (what we termed automorphism in Section 3.2), which we will denote by τDiff(Ω)𝜏DiffΩ\tau\in\mathrm{Diff}(\Omega)italic_τ ∈ roman_Diff ( roman_Ω ). We will call it a Riemannian (self-)isometry if the pullback metric satisfies τ*g=gsuperscript𝜏𝑔𝑔\tau^{*}g=gitalic_τ start_POSTSUPERSCRIPT * end_POSTSUPERSCRIPT italic_g = italic_g, or a metric (self-)isometry if dg=dg(τ×τ)subscript𝑑𝑔subscript𝑑𝑔𝜏𝜏d_{g}=d_{g}\circ(\tau\times\tau)italic_d start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT = italic_d start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT ∘ ( italic_τ × italic_τ ). Not surprisingly,989898Continuous symmetries on manifolds are infinitesimally generated by special tangent vector fields called Killing fields, named after Wilhelm Killing.isometries form a group with the composition operator denoted by Iso(Ω)IsoΩ\mathrm{Iso}(\Omega)roman_Iso ( roman_Ω ) and called the isometry group; the identity element is the map τ(u)=u𝜏𝑢𝑢\tau(u)=uitalic_τ ( italic_u ) = italic_u and the inverse always exists (by definition of τ𝜏\tauitalic_τ as a diffeomorphism). Self-isometries are thus intrinsic symmetries of manifolds.

Fourier analysis on Manifolds

우리는 이제 구성에 의해 등척성 변형에 불변하는 다양체에 대한 고유 컨볼루션과 같은 연산을 구성하는 방법을 보여줄 것이다. 이를 위해 두 가지 옵션이 있다: 하나는 푸리에 변환의 유추를 사용하는 것이고, 컨볼루션은 푸리에 도메인에서 곱으로 정의하는 것이다. 다른 하나는 필터를 신호와 국부적으로 상관시킴으로써, 콘볼루션을 공간적으로 정의하는 것이다. 스펙트럼 접근법에 대해 먼저 논의해 봅시다.

우리는 유클리드 영역에서 퓨리에 변환이 순환 행렬의 고유 벡터로 얻어지며, 이 고유 벡터는 교환도로 인해 공동으로 대각화할 수 있음을 상기한다. 따라서, 임의의 순환 매트릭스, 특히 미분 연산자는 일반 도메인 상의 푸리에 변환의 유추를 정의하기 위해 사용될 수 있다. 리만 기하학에서는 라플라시안 연산자의 직교 고유 기저를 사용하는 것이 일반적이며, 여기서 정의하기로 한다.

For this purpose, recall our definition of the intrinsic gradient operator :𝒳(Ω,)𝒳(Ω,TΩ):𝒳Ω𝒳Ω𝑇Ω\nabla:\mathcal{X}(\Omega,\mathbb{R})\rightarrow\mathcal{X}(\Omega,T\Omega)∇ : caligraphic_X ( roman_Ω , blackboard_R ) → caligraphic_X ( roman_Ω , italic_T roman_Ω ), producing a tangent vector field that indicates the local direction of steepest increase of a scalar field on the manifold. In a similar manner, we can define the divergence operator *:𝒳(Ω,TΩ)𝒳(Ω,):superscript𝒳Ω𝑇Ω𝒳Ω\nabla^{*}:\mathcal{X}(\Omega,T\Omega)\rightarrow\mathcal{X}(\Omega,\mathbb{R})∇ start_POSTSUPERSCRIPT * end_POSTSUPERSCRIPT : caligraphic_X ( roman_Ω , italic_T roman_Ω ) → caligraphic_X ( roman_Ω , blackboard_R ). If we think of a tangent vector field as a flow on the manifold, the divergence measures the net flow of a field at a point, allowing to distinguish between field ‘sources’ and ‘sinks’. We use the notation *superscript\nabla^{*}∇ start_POSTSUPERSCRIPT * end_POSTSUPERSCRIPT (as opposed to the common divdiv\mathrm{div}roman_div) to emphasise that the two operators are adjoint,

X,x=*X,x,𝑋𝑥superscript𝑋𝑥\langle X,\nabla x\rangle=\langle\nabla^{*}X,x\rangle,⟨ italic_X , ∇ italic_x ⟩ = ⟨ ∇ start_POSTSUPERSCRIPT * end_POSTSUPERSCRIPT italic_X , italic_x ⟩ ,

여기서 우리는 스칼라 및 벡터 필드 사이의 내부 곱(15) 및 (16)을 사용한다.

Laplacian (또한 Laplace-Beltrami operator in differential geometry)는 𝒳(Ω)𝒳Ω\mathcal{X}(\Omega)caligraphic_X ( roman_Ω )로 정의된 에 대한 연산자로, 이는 999999이 해석으로부터 Laplacian이 등방성이라는 것도 분명하다. 4.6절에서 anisotropic Laplacians((Andreux et al., 2014; Boscaini et al., 2016b) 참조) 형식의 *(A(u))superscript𝐴𝑢\nabla^{*}(A(u)\nabla)∇ start_POSTSUPERSCRIPT * end_POSTSUPERSCRIPT ( italic_A ( italic_u ) ∇ ), 여기서 A(u)𝐴𝑢A(u)italic_A ( italic_u )는 로컬 방향을 결정하는 위치 종속 텐서임을 알 수 있다. 이것은 열 확산, 양자 진동 및 파동 전파와 같은 다양한 현상을 설명하는 데 사용되는 수리 물리학에서 가장 중요한 연산자 중 하나이다. 중요한 것은 우리의 맥락에서 라플라시안(Laplacian)은 고유하므로 ΩΩ\Omegaroman_Ω의 등량 하에서 불변이다.

라플라시안(Laplacian)이 자기조인트(‘대칭적’)인 것을 쉽게 알 수 있고,

x,x=x,Δx=Δx,x.𝑥𝑥𝑥Δ𝑥Δ𝑥𝑥\langle\nabla x,\nabla x\rangle=\langle x,\Delta x\rangle=\langle\Delta x,x\rangle.⟨ ∇ italic_x , ∇ italic_x ⟩ = ⟨ italic_x , roman_Δ italic_x ⟩ = ⟨ roman_Δ italic_x , italic_x ⟩ .

상기 표현에서 좌측의 2차 형태는 실제로 이미 익숙한 디리클레 에너지이고,

c2(x)=x2=x,x=Ωx(u)u2du=Ωgu(x(u),x(u))dusuperscript𝑐2𝑥superscriptnorm𝑥2𝑥𝑥subscriptΩsuperscriptsubscriptnorm𝑥𝑢𝑢2differential-d𝑢subscriptΩsubscript𝑔𝑢𝑥𝑢𝑥𝑢differential-d𝑢c^{2}(x)=\|\nabla x\|^{2}=\langle\nabla x,\nabla x\rangle=\int_{\Omega}\|\nabla x(u)\|_{u}^{2}\mathrm{d}u=\int_{\Omega}g_{u}(\nabla x(u),\nabla x(u))\mathrm{d}uitalic_c start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ( italic_x ) = ∥ ∇ italic_x ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT = ⟨ ∇ italic_x , ∇ italic_x ⟩ = ∫ start_POSTSUBSCRIPT roman_Ω end_POSTSUBSCRIPT ∥ ∇ italic_x ( italic_u ) ∥ start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT roman_d italic_u = ∫ start_POSTSUBSCRIPT roman_Ω end_POSTSUBSCRIPT italic_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( ∇ italic_x ( italic_u ) , ∇ italic_x ( italic_u ) ) roman_d italic_u

measuring the smoothness of x𝑥xitalic_x.

라플라시안 연산자는 자기분해를 인정한다.

Δφk=λkφk,k=0,1,formulae-sequenceΔsubscript𝜑𝑘subscript𝜆𝑘subscript𝜑𝑘𝑘01\Delta\varphi_{k}=\lambda_{k}\varphi_{k},\quad\quad k=0,1,\ldotsroman_Δ italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT = italic_λ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT , italic_k = 0 , 1 , …

with countable spectrum if the manifold is compact (which we 암묵적으로 가정함), and orthogonal eigenfunctions, φk,φl=δklsubscript𝜑𝑘subscript𝜑𝑙subscript𝛿𝑘𝑙\langle\varphi_{k},\varphi_{l}\rangle=\delta_{kl}⟨ italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT , italic_φ start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT ⟩ = italic_δ start_POSTSUBSCRIPT italic_k italic_l end_POSTSUBSCRIPT, due to the self-adjointness of ΔΔ\Deltaroman_Δ. 라플라시안 고유바시스는 또한 디리클레 에너지의 직교 최소치들의 세트로서 구성될 수 있고,

φk+1=argminφφ2s.t.φ=1andφ,φj=0formulae-sequencesubscript𝜑𝑘1subscript𝜑superscriptnorm𝜑2s.t.norm𝜑1and𝜑subscript𝜑𝑗0\varphi_{k+1}=\arg\min_{\varphi}\|\nabla\varphi\|^{2}\quad\quad\text{s.t.}\quad\quad\|\varphi\|=1\,\,\,\text{and}\,\,\,\langle\varphi,\varphi_{j}\rangle=0italic_φ start_POSTSUBSCRIPT italic_k + 1 end_POSTSUBSCRIPT = roman_arg roman_min start_POSTSUBSCRIPT italic_φ end_POSTSUBSCRIPT ∥ ∇ italic_φ ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT s.t. ∥ italic_φ ∥ = 1 and ⟨ italic_φ , italic_φ start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ⟩ = 0

for j=0,,k𝑗0𝑘j=0,\ldots,kitalic_j = 0 , … , italic_k, allowing to interpret it as the smoothest orthogonal basis on ΩΩ\Omegaroman_Ω. The eigenfunctions φ0,φ1,subscript𝜑0subscript𝜑1\varphi_{0},\varphi_{1},\ldotsitalic_φ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT , italic_φ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … and the corresponding eigenvalues 0=λ0λ10subscript𝜆0subscript𝜆10=\lambda_{0}\leq\lambda_{1}\leq\ldots0 = italic_λ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ≤ italic_λ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ≤ … can be interpreted as the analogy of the atoms and frequencies in the classical Fourier transform. 100100100In fact eiξusuperscript𝑒i𝜉𝑢e^{\mathrm{i}\xi u}italic_e start_POSTSUPERSCRIPT roman_i italic_ξ italic_u end_POSTSUPERSCRIPT are the eigenfunctions of the Euclidean Laplacian d2du2superscriptd2dsuperscript𝑢2\tfrac{\mathrm{d}^{2}}{\mathrm{d}u^{2}}divide start_ARG roman_d start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_ARG roman_d italic_u start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG.

이 직교 기반은 ΩΩ\Omegaroman_Ω에서 제곱-integrable 함수를 푸리에 시리즈으로 확장할 수 있습니다.

x(u)=k0x,φkφk(u)𝑥𝑢subscript𝑘0𝑥subscript𝜑𝑘subscript𝜑𝑘𝑢x(u)=\sum_{k\geq 0}\langle x,\varphi_{k}\rangle\varphi_{k}(u)italic_x ( italic_u ) = ∑ start_POSTSUBSCRIPT italic_k ≥ 0 end_POSTSUBSCRIPT ⟨ italic_x , italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ⟩ italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ( italic_u )

여기서 x^k=x,φksubscript^𝑥𝑘𝑥subscript𝜑𝑘\hat{x}_{k}=\langle x,\varphi_{k}\rangleover^ start_ARG italic_x end_ARG start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT = ⟨ italic_x , italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ⟩Fourier coefficient 또는 x𝑥xitalic_x의 (일반화된) 푸리에 변환으로 지칭된다. 101101101Note that this Fourier transform has a discrete index, because the spectrum is discrete due to the compactness of ΩΩ\Omegaroman_Ω. Truncating the Fourier series results in the approximation error that be bounded (Aflalo and Kimmel, 2013) by

xk=0Nx,φkφk2x2λN+1.superscriptnorm𝑥superscriptsubscript𝑘0𝑁𝑥subscript𝜑𝑘subscript𝜑𝑘2superscriptnorm𝑥2subscript𝜆𝑁1\left\|x-\sum_{k=0}^{N}\langle x,\varphi_{k}\rangle\varphi_{k}\right\|^{2}\leq\frac{\|\nabla x\|^{2}}{\lambda_{N+1}}.∥ italic_x - ∑ start_POSTSUBSCRIPT italic_k = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT ⟨ italic_x , italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ⟩ italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ≤ divide start_ARG ∥ ∇ italic_x ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_ARG italic_λ start_POSTSUBSCRIPT italic_N + 1 end_POSTSUBSCRIPT end_ARG .

Aflalo et al. (2015)는 Laplacian eigenbasis optimal for representing smooth signals on manifolds.

Spectral Convolution on Manifolds

Spectral convolution은 신호 x𝑥xitalic_x와 필터 θ𝜃\thetaitalic_θ의 푸리에 변환의 곱으로 정의할 수 있다.

(xθ)(u)=k0(x^kθ^k)φk(u).𝑥𝜃𝑢subscript𝑘0subscript^𝑥𝑘subscript^𝜃𝑘subscript𝜑𝑘𝑢(x\star\theta)(u)=\sum_{k\geq 0}(\hat{x}_{k}\cdot\hat{\theta}_{k})\varphi_{k}(u).( italic_x ⋆ italic_θ ) ( italic_u ) = ∑ start_POSTSUBSCRIPT italic_k ≥ 0 end_POSTSUBSCRIPT ( over^ start_ARG italic_x end_ARG start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ⋅ over^ start_ARG italic_θ end_ARG start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ) italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ( italic_u ) . (17)

여기서 우리는 고전적 푸리에 변환(Convolution Theorem)의 propertydefine non-Euclidean convolution에 대한 방법으로 사용한다. 그 구성 덕분에 스펙트럼 컨벌루션은 고유하고 따라서 등량론에 불변한다. 또한, 라플라시안 연산자는 등방성이기 때문에 방향 감각이 없으며, 이러한 의미에서 이웃 집합의 순열 불변성으로 인해 섹션 4.1의 그래프에 있는 상황과 유사하다.

Refer to caption
도 12:Instability of spectral filters under domain perturbation. 왼쪽: 메시 상의 신호 𝐱𝐱\mathbf{x}bold_x ΩΩ\Omegaroman_Ω. 중간: ΩΩ\Omegaroman_Ω 상의 Laplacian ΔΔ\Deltaroman_Δ의 고유 기저에서 스펙트럼 필터링의 결과.
Right: the same spectral filter applied to the eigenvectors of the Laplacian Δ~~Δ\tilde{\Delta}over~ start_ARG roman_Δ end_ARG of a nearly-isometrically perturbed domain Ω~~Ω\tilde{\Omega}over~ start_ARG roman_Ω end_ARG produces a very different result.

실제로, (17)의 직접 계산은 라플라시안 대각화의 필요성으로 인해 엄청나게 비싼 것으로 보인다. 더 나쁜 것은 기하학적으로 불안정하다는 것이다: 라플라시안 고빈도 고유함수는 영역 ΩΩ\Omegaroman_Ω의 작은 근등각 섭동의 결과로 극적으로 변할 수 있다(12 참조). 필터를 spectral transfer function 형태의 p^(Δ)^𝑝Δ\hat{p}(\Delta)over^ start_ARG italic_p end_ARG ( roman_Δ ),

(p^(Δ)x)(u)^𝑝Δ𝑥𝑢\displaystyle(\hat{p}(\Delta)x)(u)( over^ start_ARG italic_p end_ARG ( roman_Δ ) italic_x ) ( italic_u ) =\displaystyle== k0p^(λk)x,φkφk(u)subscript𝑘0^𝑝subscript𝜆𝑘𝑥subscript𝜑𝑘subscript𝜑𝑘𝑢\displaystyle\sum_{k\geq 0}\hat{p}(\lambda_{k})\langle x,\varphi_{k}\rangle\varphi_{k}(u)∑ start_POSTSUBSCRIPT italic_k ≥ 0 end_POSTSUBSCRIPT over^ start_ARG italic_p end_ARG ( italic_λ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ) ⟨ italic_x , italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ⟩ italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ( italic_u ) (18)
=\displaystyle== Ωx(v)k0p^(λk)φk(v)φk(u)dvsubscriptΩ𝑥𝑣subscript𝑘0^𝑝subscript𝜆𝑘subscript𝜑𝑘𝑣subscript𝜑𝑘𝑢d𝑣\displaystyle\int_{\Omega}x(v)\,\sum_{k\geq 0}\hat{p}(\lambda_{k})\varphi_{k}(v)\varphi_{k}(u)\,\mathrm{d}v∫ start_POSTSUBSCRIPT roman_Ω end_POSTSUBSCRIPT italic_x ( italic_v ) ∑ start_POSTSUBSCRIPT italic_k ≥ 0 end_POSTSUBSCRIPT over^ start_ARG italic_p end_ARG ( italic_λ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ) italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ( italic_v ) italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ( italic_u ) roman_d italic_v (19)

which can be interpreted in two manners: either as a spectral filter (18), where we identify θ^k=p^(λk)subscript^𝜃𝑘^𝑝subscript𝜆𝑘\hat{\theta}_{k}=\hat{p}(\lambda_{k})over^ start_ARG italic_θ end_ARG start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT = over^ start_ARG italic_p end_ARG ( italic_λ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ), or as a spatial filter (19) with a position-dependent kernel θ(u,v)=k0p^(λk)φk(v)φk(u)𝜃𝑢𝑣subscript𝑘0^𝑝subscript𝜆𝑘subscript𝜑𝑘𝑣subscript𝜑𝑘𝑢\theta(u,v)=\sum_{k\geq 0}\hat{p}(\lambda_{k})\varphi_{k}(v)\varphi_{k}(u)italic_θ ( italic_u , italic_v ) = ∑ start_POSTSUBSCRIPT italic_k ≥ 0 end_POSTSUBSCRIPT over^ start_ARG italic_p end_ARG ( italic_λ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ) italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ( italic_v ) italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ( italic_u ). The advantage of this formulation is that p^(λ)^𝑝𝜆\hat{p}(\lambda)over^ start_ARG italic_p end_ARG ( italic_λ ) can be parametrised by a small number of coefficients, and choosing parametric functions such as polynomials102102102Geometric Deep Learning methods based on spectral convolution expressed through the Fourier transform are often referred to as ‘spectral’ and opposed to ‘spatial’ methods we have seen before in the context of graphs. We see here that these two views may be equivalent, so this dichotomy is somewhat artificial and not completely appropriate.p^(λ)=l=0rαlλl^𝑝𝜆superscriptsubscript𝑙0𝑟subscript𝛼𝑙superscript𝜆𝑙\hat{p}(\lambda)=\sum_{l=0}^{r}\alpha_{l}\lambda^{l}over^ start_ARG italic_p end_ARG ( italic_λ ) = ∑ start_POSTSUBSCRIPT italic_l = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_r end_POSTSUPERSCRIPT italic_α start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT italic_λ start_POSTSUPERSCRIPT italic_l end_POSTSUPERSCRIPT allows for efficiently computing the filter as

(p^(Δ)x)(u)=k0l=0rαlλklx,φkφk(u)=l=0rαl(Δlx)(u),^𝑝Δ𝑥𝑢subscript𝑘0superscriptsubscript𝑙0𝑟subscript𝛼𝑙superscriptsubscript𝜆𝑘𝑙𝑥subscript𝜑𝑘subscript𝜑𝑘𝑢superscriptsubscript𝑙0𝑟subscript𝛼𝑙superscriptΔ𝑙𝑥𝑢(\hat{p}(\Delta)x)(u)=\sum_{k\geq 0}\sum_{l=0}^{r}\alpha_{l}\lambda_{k}^{l}\,\langle x,\varphi_{k}\rangle\varphi_{k}(u)=\sum_{l=0}^{r}\alpha_{l}(\Delta^{l}x)(u),( over^ start_ARG italic_p end_ARG ( roman_Δ ) italic_x ) ( italic_u ) = ∑ start_POSTSUBSCRIPT italic_k ≥ 0 end_POSTSUBSCRIPT ∑ start_POSTSUBSCRIPT italic_l = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_r end_POSTSUPERSCRIPT italic_α start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT italic_λ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_l end_POSTSUPERSCRIPT ⟨ italic_x , italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ⟩ italic_φ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ( italic_u ) = ∑ start_POSTSUBSCRIPT italic_l = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_r end_POSTSUPERSCRIPT italic_α start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT ( roman_Δ start_POSTSUPERSCRIPT italic_l end_POSTSUPERSCRIPT italic_x ) ( italic_u ) ,

스펙트럼 분해를 완전히 피합니다. 우리는 이 구성에 대해 섹션 4.6에서 더 자세히 논의할 것이다.

Spatial Convolution on Manifolds

두 번째 대안은 매니폴드에 대한 컨벌루션을 정의하는 것을 시도하는 것인데, 이는 수식 (14)에서와 같이 서로 다른 지점에서 필터를 매칭하는 것이다.

(xθ)(u)=TuΩx(expuY)θu(Y)dY,𝑥𝜃𝑢subscriptsubscript𝑇𝑢Ω𝑥subscript𝑢𝑌subscript𝜃𝑢𝑌differential-d𝑌(x\star\theta)(u)=\int_{T_{u}\Omega}x(\exp_{u}Y)\theta_{u}(Y)\mathrm{d}Y,( italic_x ⋆ italic_θ ) ( italic_u ) = ∫ start_POSTSUBSCRIPT italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω end_POSTSUBSCRIPT italic_x ( roman_exp start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT italic_Y ) italic_θ start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_Y ) roman_d italic_Y , (20)

여기서 우리는 이제 지수 맵을 사용하여 접선 공간에서 스칼라 필드 x𝑥xitalic_x의 값에 액세스해야 하며, 필터 θusubscript𝜃𝑢\theta_{u}italic_θ start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT는 각 점의 접선 공간에서 정의되고 따라서 위치 의존적이다. 필터가 본질적으로 정의된다면, 그러한 컨볼루션은 우리가 많은 컴퓨터 비전 및 그래픽 애플리케이션에서 중요하다고 언급한 특성인 등각 불변일 것이다.

그러나 섹션 4.24.3에서 이전 구성과 몇 가지 실질적인 차이점을 주목할 필요가 있다. 첫째, 매니폴드는 일반적으로 균질한 공간이 아니기 때문에, 우리는 더 이상 글로벌 그룹 구조를 갖지 않는다. 우리를 허용하는 공유 필터(즉, 한 지점에서 정의된 식(20))에서 θusubscript𝜃𝑢\theta_{u}italic_θ start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT가 아닌 모든 u𝑢uitalic_u에서 동일한 θ𝜃\thetaitalic_θ를 갖는 것이다. 매니폴드 상에서의 이러한 동작의 유추는 병렬 트랜스포트를 필요로 할 것이며, 이는 일부 다른 TvΩsubscript𝑇𝑣ΩT_{v}\Omegaitalic_T start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT roman_Ω에서, TuΩsubscript𝑇𝑢ΩT_{u}\Omegaitalic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω 상의 함수로서 정의된 공유 θ𝜃\thetaitalic_θ를 적용할 수 있게 한다. 그러나, 우리가 보았듯이, 이것은 일반적으로 u𝑢uitalic_uv𝑣vitalic_v 사이의 경로에 의존할 것이므로, 문제를 중심으로 필터를 이동하는 방법. 셋째, 지수 맵은 로컬에서만 사용할 수 있으므로 필터는 주입 반경으로 제한 된 지원으로 local이어야 합니다. 넷째, 가장 중요한 것은, θ(X)𝜃𝑋\theta(X)italic_θ ( italic_X ), X𝑋Xitalic_X가 추상적인 기하학적 객체인 것처럼, X𝑋Xitalic_X가 계산에 사용되기 위해서는 Relative to some local basis ωu:sTuΩ:subscript𝜔𝑢superscript𝑠subscript𝑇𝑢Ω\omega_{u}:\mathbb{R}^{s}\rightarrow T_{u}\Omegaitalic_ω start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT : blackboard_R start_POSTSUPERSCRIPT italic_s end_POSTSUPERSCRIPT → italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω, s𝑠sitalic_s-dimensional array of coordinates 𝐱=ωu1(X)𝐱subscriptsuperscript𝜔1𝑢𝑋\mathbf{x}=\omega^{-1}_{u}(X)bold_x = italic_ω start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_X )를 표현해야 한다. This allows us to rewrite the convolution (20) as

(xθ)(u)=[0,1]sx(expu(ωu𝐲))θ(𝐲)d𝐲,𝑥𝜃𝑢subscriptsuperscript01𝑠𝑥subscript𝑢subscript𝜔𝑢𝐲𝜃𝐲differential-d𝐲(x\star\theta)(u)=\int_{[0,1]^{s}}x(\exp_{u}(\omega_{u}\mathbf{y}))\theta(\mathbf{y})\mathrm{d}\mathbf{y},( italic_x ⋆ italic_θ ) ( italic_u ) = ∫ start_POSTSUBSCRIPT [ 0 , 1 ] start_POSTSUPERSCRIPT italic_s end_POSTSUPERSCRIPT end_POSTSUBSCRIPT italic_x ( roman_exp start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_ω start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT bold_y ) ) italic_θ ( bold_y ) roman_d bold_y , (21)

단위 큐브에 정의된 필터와 함께. 지수 맵은 (측지선의 정의를 통해) 고유하기 때문에, 결과 컨볼루션은 등변-불변이다.

그러나, 이 암묵적으로 우리는 프레임 ωusubscript𝜔𝑢\omega_{u}italic_ω start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT를 다른 매니폴드, 즉 ωu=dηuωusuperscriptsubscript𝜔𝑢dsubscript𝜂𝑢subscript𝜔𝑢\omega_{u}^{\prime}=\mathrm{d}\eta_{u}\circ\omega_{u}italic_ω start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = roman_d italic_η start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ∘ italic_ω start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT로 전달할 수 있다고 가정했다. 이러한 프레임(또는 gauge, 물리학 용어로)을 얻는 것은 일관된 방식으로 매니폴드 ΩΩ\Omegaroman_Ω만이 주어지지만 어려움이 따른다. 먼저, 매끄러운 글로벌 게이지가 존재하지 않을 수 있다: 이것은 parallelisable,103103103103103The sphere 𝕊2superscript𝕊2\mathbb{S}^{2}blackboard_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT는 병렬이 불가능한 매니폴드의 한 예이며, Poinc 둘째, 우리는 매니폴드에 정준 게이지가 없기 때문에 이 선택은 임의적이다; 우리의 컨볼루션은 <수학 idx=4>에 의존하기 때문에, 만약 다른 것을 선택한다면, 우리는 다른 결과를 얻을 것이다.

우리는 실천이 이론에서 발산하는 경우라는 점에 주목해야 한다. 실제로, 다양체 위의 일부 고유 스칼라 장의 고유 기울기를 취함으로써 제한된 수의 특이점으로 대부분 매끄러운 프레임을 구축하는 것이 가능하다. 104104104 [Uncaptioned image] Example of stable gauges constructed on nearly-isometric manifolds (only one axis is shown) using the GFrames algorithm of Melzi et al. (2019). Moreover, 이러한 구성은 안정적이다. 즉, 이러한 방식으로 구성된 프레임은 등척성 매니폴드에서는 동일하고 대략 등척성 매니폴드에서는 유사할 것이다. 이러한 접근법은 실제로 매니폴드 (Masci et al., 2015; Monti et al., 2017)에 대한 딥 러닝에 대한 초기 작업에서 사용되었다.

그럼에도 불구하고, 이 솔루션은 거의 특이점들, 필터 배향(게이지에 대해 고정된 방식으로 정의됨)이 거칠게 변할 것이기 때문에 완전히 만족스럽지는 않으며, 이는 입력 신호 및 필터가 매끄럽더라도 매끄럽지 않은 특징 맵으로 이어진다. 더욱이, 어떤 지점 u𝑢uitalic_u에서 주어진 방향이 완전히 다른 지점 v𝑣vitalic_v에서 다른 방향과 동등한 것으로 간주되어야 하는 명확한 이유는 없다. 따라서 practical alternatives에도 불구하고, 다음으로 더 많은 theoretically well-founded approach는 게이지의 선택에 완전히 독립적일 것이다.

4.5 Gauges and Bundles

우리가 접선 공간에 대한 프레임으로 정의한 게이지 개념은 물리학에서 훨씬 더 일반적이며, 이는 접선 번들뿐만 아니라 임의의 105105105Historically, fibre bundles arose first in modern differential geometry of Élie Cartan (who however did not define them explicitly), and were then further developed as a standalone object in the field of topology in the 1930s.벡터 번들에 대한 프레임을 참조할 수 있다. 비공식적으로, 벡터 번들은 다른 공간에 의해 파라메트리스된 벡터 공간들의 패밀리를 기술하고, 동일한 벡터 공간 𝕍𝕍\mathbb{V}blackboard_V를 갖는 base space ΩΩ\Omegaroman_Ω로 구성된다(각 위치 uΩ𝑢Ωu\in\Omegaitalic_u ∈ roman_Ω에 부착된 fibre이라고 함). (접선 번들의 경우, 이들은 접선 공간 TuΩsubscript𝑇𝑢ΩT_{u}\Omegaitalic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω이다). 대략적으로 번들은 u𝑢uitalic_u를 중심으로 지역적으로 제품 Ω×𝕍Ω𝕍\Omega\times\mathbb{V}roman_Ω × blackboard_V로 보이지만, 전역적으로 ‘twisted’될 수 있고 전체적으로 다른 구조를 가질 수 있다. 기하학적 딥 러닝에서, 섬유는 다양체 ΩΩ\Omegaroman_Ω의 각 점에서의 특징 공간을 모델링하는데 사용될 수 있으며, 섬유의 차원은 특징 채널의 수와 동일하다. 이러한 맥락에서, gauge symmetry이라고 불리는 새롭고 매혹적인 종류의 대칭이 자신을 제시할 수 있다.

다시 한번, 접선 번들 s𝑠sitalic_s-dimensional manifold ΩΩ\Omegaroman_Ω와, 벡터 필드 X:ΩTΩ:𝑋Ω𝑇ΩX:\Omega\rightarrow T\Omegaitalic_X : roman_Ω → italic_T roman_Ω(이 용어에서는 접선 번들 상의 section으로 지칭된다. 접선 번들에 대한 게이지 ω𝜔\omegaitalic_ω에 비해, X𝑋Xitalic_X는 함수 𝐱:Ωs:𝐱Ωsuperscript𝑠\mathbf{x}:\Omega\rightarrow\mathbb{R}^{s}bold_x : roman_Ω → blackboard_R start_POSTSUPERSCRIPT italic_s end_POSTSUPERSCRIPT로 표현된다. 그러나 우리가 정말로 관심이 있는 것은 함수로서의 표현 𝐱𝒳(Ω,s)𝐱𝒳Ωsuperscript𝑠\mathbf{x}\in\mathcal{X}(\Omega,\mathbb{R}^{s})bold_x ∈ caligraphic_X ( roman_Ω , blackboard_R start_POSTSUPERSCRIPT italic_s end_POSTSUPERSCRIPT ) depends on the choice of gauge ω𝜔\omegaitalic_ω 게이지를 변경하면 표현되고 있는 기본 벡터 필드를 보존하기 위해 𝐱𝐱\mathbf{x}bold_x도 변경해야 한다.

Tangent bundles and the Structure group

When we change the gauge, we need to apply at each point an invertible matrix that maps the old gauge to the new one. This matrix is unique for every pair of gauges at each point, but possibly different at different points. In other words, a gauge transformation is a mapping 𝔤:ΩGL(s):𝔤ΩGL𝑠{\mathfrak{g}}:\Omega\rightarrow\operatorname{GL}(s)fraktur_g : roman_Ω → roman_GL ( italic_s ), where GL(s)GL𝑠\operatorname{GL}(s)roman_GL ( italic_s ) is the general linear group of invertible s×s𝑠𝑠s\times sitalic_s × italic_s matrices. It acts on the gauge ωu:sTuΩ:subscript𝜔𝑢superscript𝑠subscript𝑇𝑢Ω\omega_{u}:\mathbb{R}^{s}\rightarrow T_{u}\Omegaitalic_ω start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT : blackboard_R start_POSTSUPERSCRIPT italic_s end_POSTSUPERSCRIPT → italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω to produce a new gauge ωu=ωu𝔤u:sTuΩ:subscriptsuperscript𝜔𝑢subscript𝜔𝑢subscript𝔤𝑢superscript𝑠subscript𝑇𝑢Ω\omega^{\prime}_{u}=\omega_{u}\circ{\mathfrak{g}}_{u}:\mathbb{R}^{s}\rightarrow T_{u}\Omegaitalic_ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = italic_ω start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ∘ fraktur_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT : blackboard_R start_POSTSUPERSCRIPT italic_s end_POSTSUPERSCRIPT → italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω. The gauge transformation acts on a coordinate vector field at each point via 𝐱(u)=𝔤u1𝐱(u)superscript𝐱𝑢subscriptsuperscript𝔤1𝑢𝐱𝑢\mathbf{x}^{\prime}(u)={\mathfrak{g}}^{-1}_{u}\mathbf{x}(u)bold_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_u ) = fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT bold_x ( italic_u ) to produce the coordinate representation 𝐱superscript𝐱\mathbf{x}^{\prime}bold_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT of X𝑋Xitalic_X relative to the new gauge. The underlying vector field remains unchanged:

X(u)=ωu(𝐱(u))=ωu(𝔤u𝔤u1𝐱(u))=ωu(𝐱(u))=X(u),𝑋𝑢subscriptsuperscript𝜔𝑢superscript𝐱𝑢subscript𝜔𝑢subscript𝔤𝑢subscriptsuperscript𝔤1𝑢𝐱𝑢subscript𝜔𝑢𝐱𝑢𝑋𝑢X(u)=\omega^{\prime}_{u}(\mathbf{x^{\prime}}(u))=\omega_{u}({\mathfrak{g}}_{u}{\mathfrak{g}}^{-1}_{u}\mathbf{x}(u))=\omega_{u}(\mathbf{x}(u))=X(u),italic_X ( italic_u ) = italic_ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( bold_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_u ) ) = italic_ω start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( fraktur_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT bold_x ( italic_u ) ) = italic_ω start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( bold_x ( italic_u ) ) = italic_X ( italic_u ) ,

which is exactly the property we desired. More generally, we may have a field of geometric quantities that transform according to a representation ρ𝜌\rhoitalic_ρ of GL(s)GL𝑠\operatorname{GL}(s)roman_GL ( italic_s ), e.g. a field of 2-tensors (matrices) 𝐀(u)s×s𝐀𝑢superscript𝑠𝑠\mathbf{A}(u)\in\mathbb{R}^{s\times s}bold_A ( italic_u ) ∈ blackboard_R start_POSTSUPERSCRIPT italic_s × italic_s end_POSTSUPERSCRIPT that transform like 𝐀(u)=ρ2(𝔤u1)𝐀(u)=ρ1(𝔤u)𝐀(u)ρ1(𝔤u1)superscript𝐀𝑢subscript𝜌2subscriptsuperscript𝔤1𝑢𝐀𝑢subscript𝜌1subscript𝔤𝑢𝐀𝑢subscript𝜌1subscriptsuperscript𝔤1𝑢\mathbf{A^{\prime}}(u)=\rho_{2}({\mathfrak{g}}^{-1}_{u})\mathbf{A}(u)=\rho_{1}({\mathfrak{g}}_{u})\mathbf{A}(u)\rho_{1}({\mathfrak{g}}^{-1}_{u})bold_A start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_u ) = italic_ρ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ) bold_A ( italic_u ) = italic_ρ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ( fraktur_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ) bold_A ( italic_u ) italic_ρ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ( fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ). In this case, the gauge transformation 𝔤usubscript𝔤𝑢{\mathfrak{g}}_{u}fraktur_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT acts via ρ(𝔤u)𝜌subscript𝔤𝑢\rho({\mathfrak{g}}_{u})italic_ρ ( fraktur_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ).

때때로 우리는 직교 프레임, 오른손잡이 프레임 등과 같은 특정 속성을 가진 프레임에 주의를 제한하고자 할 수 있다. 놀랄 것도 없이, 우리는 그룹을 형성하는 몇 가지 재산 보존 변형 세트에 관심이 있다. 예를 들어, 직교성을 보존하는 그룹은 직교 그룹 O(s)O𝑠\operatorname{O}(s)roman_O ( italic_s )(회전 및 반사)이고, 배향 또는 ‘손잡이’를 추가로 보존하는 그룹은 SO(s)SO𝑠\operatorname{SO}(s)roman_SO ( italic_s )(순수 회전)이다. 따라서, 일반적으로 우리는 번들의 구조 그룹이라고 불리는 그룹 𝔊𝔊{\mathfrak{G}}fraktur_G를 가지며, 게이지 변환은 맵 𝔤:Ω𝔊:𝔤Ω𝔊{\mathfrak{g}}:\Omega\rightarrow{\mathfrak{G}}fraktur_g : roman_Ω → fraktur_G이다. 중요한 관찰은 주어진 특성을 가진 모든 경우에 주어진 지점에서 임의의 두 프레임에 대해 이들을 관련시키는 게이지 변환이 정확히 하나 존재한다는 것이다.

앞서 언급했듯이 게이지 이론은 접선 번들을 넘어 확장되며, 일반적으로 우리는 구조와 차원이 반드시 기본 공간 ΩΩ\Omegaroman_Ω의 것과 관련이 없는 벡터 공간의 번들을 고려할 수 있다. 106106106106We use s𝑠sitalic_s to denote the dimension of the base space ΩΩ\Omegaroman_Ω and d𝑑ditalic_d referring the fibre. 접 번들의 경우, d=s𝑑𝑠d=sitalic_d = italic_s는 기본 매니폴드의 차원이다. RGB 이미지의 경우, s=2𝑠2s=2italic_s = 2d=3𝑑3d=3italic_d = 3이다. 예를 들어, 컬러 이미지 픽셀은 2D 그리드 상의 위치 uΩ=2𝑢Ωsuperscript2u\in\Omega=\mathbb{Z}^{2}italic_u ∈ roman_Ω = blackboard_Z start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT와 RGB 공간 내의 값 𝐱(u)3𝐱𝑢superscript3\mathbf{x}(u)\in\mathbb{R}^{3}bold_x ( italic_u ) ∈ blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT를 가지므로, 픽셀들의 공간은 베이스 공간 2superscript2\mathbb{Z}^{2}blackboard_Z start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT와 각 지점에 파이버 3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT가 부착된 벡터 묶음으로 볼 수 있다. R, G, B에 대한 기저 벡터를 갖는 게이지(그 순서로)에 대해 RGB 이미지를 표현하는 것이 관례적이어서, 이미지의 좌표 표현은 𝐱(u)=(r(u),g(u),b(u))𝐱𝑢superscript𝑟𝑢𝑔𝑢𝑏𝑢top\mathbf{x}(u)=(r(u),g(u),b(u))^{\top}bold_x ( italic_u ) = ( italic_r ( italic_u ) , italic_g ( italic_u ) , italic_b ( italic_u ) ) start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT와 같이 보인다. 그러나 각 지점에서 사용 중인 프레임(채널 순서)을 기억하는 한, 각 위치에서 기저 벡터(컬러 채널)를 독립적으로 균등하게 순열할 수 있습니다. 107107107107이 예에서는 번들의 구조 그룹으로 3개의 컬러 채널의 순열을 선택했습니다. 𝔊=Σ3𝔊subscriptΣ3{\mathfrak{G}}=\Sigma_{3}fraktur_G = roman_Σ start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT Hue 회전 𝔊=SO(2)𝔊SO2{\mathfrak{G}}=\operatorname{SO}(2)fraktur_G = roman_SO ( 2 )와 같은 다른 선택도 가능하다. 계산 작업으로 이것은 다소 무의미하지만 곧 보게 될 것처럼 RGB 색상의 공간에 대한 게이지 변환에 대해 생각하는 것이 개념적으로 유용합니다. 왜냐하면 게이지 대칭, 이 경우 색상 간의 동등성을 표현하고 이미지에 정의된 함수가 이러한 대칭을 존중하도록 하기 때문입니다(각 색상을 동등하게 처리).

As in the case of a vector field on a manifold, an RGB gauge transformation changes the numerical representation of an image (permuting the RGB values independently at each pixel) but not the underlying image. In machine learning applications, we are interested in constructing functions f(𝒳(Ω))𝑓𝒳Ωf\in\mathcal{F}(\mathcal{X}(\Omega))italic_f ∈ caligraphic_F ( caligraphic_X ( roman_Ω ) ) on such images (e.g. to perform image classification or segmentation), implemented as layers of a neural network. It follows that if, for whatever reason, we were to apply a gauge transformation to our image, we would need to also change the function f𝑓fitalic_f (network layers) so as to preserve their meaning. Consider for simplicity a 1×1111\times 11 × 1 convolution, i.e. a map that takes an RGB pixel 𝐱(u)3𝐱𝑢superscript3\mathbf{x}(u)\in\mathbb{R}^{3}bold_x ( italic_u ) ∈ blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT to a feature vector 𝐲(u)C𝐲𝑢superscript𝐶\mathbf{y}(u)\in\mathbb{R}^{C}bold_y ( italic_u ) ∈ blackboard_R start_POSTSUPERSCRIPT italic_C end_POSTSUPERSCRIPT. According to our Geometric Deep Learning blueprint, the output is associated with a group representation ρoutsubscript𝜌out\rho_{\textup{out}}italic_ρ start_POSTSUBSCRIPT out end_POSTSUBSCRIPT, in this case a C𝐶Citalic_C-dimensional representation of the structure group 𝔊=Σ3𝔊subscriptΣ3{\mathfrak{G}}=\Sigma_{3}fraktur_G = roman_Σ start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT (RGB channel permutations), and similarly the input is associated with a representation ρin(𝔤)=𝔤subscript𝜌in𝔤𝔤\rho_{\textup{in}}({\mathfrak{g}})={\mathfrak{g}}italic_ρ start_POSTSUBSCRIPT in end_POSTSUBSCRIPT ( fraktur_g ) = fraktur_g. Then, if we apply a gauge transformation to the input, we would need to change the linear map (1×1111\times 11 × 1 convolution) f:3C:𝑓superscript3superscript𝐶f:\mathbb{R}^{3}\rightarrow\mathbb{R}^{C}italic_f : blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT → blackboard_R start_POSTSUPERSCRIPT italic_C end_POSTSUPERSCRIPT to f=ρout1(𝔤)fρin(𝔤)superscript𝑓subscriptsuperscript𝜌1out𝔤𝑓subscript𝜌in𝔤f^{\prime}=\rho^{-1}_{\textup{out}}({\mathfrak{g}})\circ f\circ\rho_{\textup{in}}({\mathfrak{g}})italic_f start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = italic_ρ start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT out end_POSTSUBSCRIPT ( fraktur_g ) ∘ italic_f ∘ italic_ρ start_POSTSUBSCRIPT in end_POSTSUBSCRIPT ( fraktur_g ) so that the output feature vector 𝐲(u)=f(𝐱(u))𝐲𝑢𝑓𝐱𝑢\mathbf{y}(u)=f(\mathbf{x}(u))bold_y ( italic_u ) = italic_f ( bold_x ( italic_u ) ) transforms like 𝐲(u)=ρout(𝔤u)𝐲(u)superscript𝐲𝑢subscript𝜌outsubscript𝔤𝑢𝐲𝑢\mathbf{y}^{\prime}(u)=\rho_{\textup{out}}({\mathfrak{g}}_{u})\mathbf{y}(u)bold_y start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_u ) = italic_ρ start_POSTSUBSCRIPT out end_POSTSUBSCRIPT ( fraktur_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ) bold_y ( italic_u ) at every point. Indeed we verify:

𝐲=f(𝐱)=ρout1(𝔤)f(ρin(𝔤)ρin1(𝔤)𝐱)=ρout1(𝔤)f(𝐱).superscript𝐲superscript𝑓superscript𝐱subscriptsuperscript𝜌1out𝔤𝑓subscript𝜌in𝔤subscriptsuperscript𝜌1in𝔤𝐱subscriptsuperscript𝜌1out𝔤𝑓𝐱\mathbf{y}^{\prime}=f^{\prime}(\mathbf{x}^{\prime})=\rho^{-1}_{\textup{out}}({\mathfrak{g}})f(\rho_{\textup{in}}({\mathfrak{g}})\rho^{-1}_{\textup{in}}({\mathfrak{g}})\mathbf{x})=\rho^{-1}_{\textup{out}}({\mathfrak{g}})f(\mathbf{x}).bold_y start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = italic_f start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( bold_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ) = italic_ρ start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT out end_POSTSUBSCRIPT ( fraktur_g ) italic_f ( italic_ρ start_POSTSUBSCRIPT in end_POSTSUBSCRIPT ( fraktur_g ) italic_ρ start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT in end_POSTSUBSCRIPT ( fraktur_g ) bold_x ) = italic_ρ start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT out end_POSTSUBSCRIPT ( fraktur_g ) italic_f ( bold_x ) .

Gauge Symmetries

우리가 게이지 변환을 대칭으로 간주한다고 하는 것은 게이지 변환에 의해 관련된 모든 두 게이지가 동등한 것으로 간주된다고 말하는 것이다. 예를 들어, 𝔊=SO(d)𝔊SO𝑑{\mathfrak{G}}=\operatorname{SO}(d)fraktur_G = roman_SO ( italic_d )를 취하면, 임의의 두 개의 오른손 직교 프레임이 동등한 것으로 간주되는데, 이는 임의의 그러한 프레임을 회전에 의해 임의의 다른 그러한 프레임에 매핑할 수 있기 때문이다. 즉, "위" 또는 "오른쪽"과 같이 구별되는 지역적 방향이 존재하지 않는다. 마찬가지로, 𝔊=O(d)𝔊O𝑑{\mathfrak{G}}=\operatorname{O}(d)fraktur_G = roman_O ( italic_d )(직교 그룹)이면, 임의의 왼손잡이와 오른손잡이의 직교 프레임이 동등한 것으로 간주된다. 이 경우, 바람직한 배향도 없다. 일반적으로, 우리는 그룹 𝔊𝔊{\mathfrak{G}}fraktur_G와 매 점 u𝑢uitalic_u에서의 프레임들의 모음을 고려할 수 있으며, 그 중 임의의 두 개의 프레임에 대해 하나의 프레임을 다른 프레임에 매핑하는 고유한 𝔤(u)𝔊𝔤𝑢𝔊{\mathfrak{g}}(u)\in{\mathfrak{G}}fraktur_g ( italic_u ) ∈ fraktur_G가 존재한다.

Geometric Deep Learning 설계도의 대칭으로서 게이지 변환과 관련하여, 우리는 f𝑓fitalic_f ΩΩ\Omegaroman_Ω에 정의된 신호에 작용하고 게이지에 대해 표현된 함수가 그러한 변환과 동등해야 하는 것에 관심이 있다. 구체적으로, 이것은 우리가 입력에 게이지 변환을 적용한다면, 출력은 동일한 변환을 겪어야 한다는 것을 의미한다(아마도 𝔊𝔊{\mathfrak{G}}fraktur_G의 다른 표현을 통해 작용할 것이다). 우리는 이전에 게이지를 변경할 때 함수 f𝑓fitalic_f도 변경해야 한다는 점에 주목했지만, 게이지 등분산 맵의 경우 게이지 변경이 매핑 불변에서 벗어나는 경우가 아니다. 이를 보기 위해 RGB 색공간 예를 다시 생각해 본다. 맵 f:3C:𝑓superscript3superscript𝐶f:\mathbb{R}^{3}\rightarrow\mathbb{R}^{C}italic_f : blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT → blackboard_R start_POSTSUPERSCRIPT italic_C end_POSTSUPERSCRIPTfρin(𝔤)=ρout(𝔤)f𝑓subscript𝜌in𝔤subscript𝜌out𝔤𝑓f\circ\rho_{\textup{in}}({\mathfrak{g}})=\rho_{\textup{out}}({\mathfrak{g}})\circ fitalic_f ∘ italic_ρ start_POSTSUBSCRIPT in end_POSTSUBSCRIPT ( fraktur_g ) = italic_ρ start_POSTSUBSCRIPT out end_POSTSUBSCRIPT ( fraktur_g ) ∘ italic_f이면 등분산이지만, 이 경우 f𝑓fitalic_f에 적용되는 게이지 변환은 효과가 없다: ρout1(𝔤)fρin(𝔤)=fsuperscriptsubscript𝜌out1𝔤𝑓subscript𝜌in𝔤𝑓\rho_{\textup{out}}^{-1}({\mathfrak{g}})\circ f\circ\rho_{\textup{in}}({\mathfrak{g}})=fitalic_ρ start_POSTSUBSCRIPT out end_POSTSUBSCRIPT start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ( fraktur_g ) ∘ italic_f ∘ italic_ρ start_POSTSUBSCRIPT in end_POSTSUBSCRIPT ( fraktur_g ) = italic_f. 즉, 게이지 등분산 지도의 좌표 표현은 게이지와 무관하며, 그래프의 경우 입력 노드가 어떻게 순열되었는지에 관계없이 동일한 함수를 적용하는 것과 같다. 그러나 지금까지 다룬 그래프 및 다른 예의 경우와 달리 게이지 변환은 not on ΩΩ\Omegaroman_Ω이지만 별도로 on the feature vectors 𝐱(u)𝐱𝑢\mathbf{x}(u)bold_x ( italic_u ) by a transformation 𝔤(u)𝔊𝔤𝑢𝔊{\mathfrak{g}}(u)\in{\mathfrak{G}}fraktur_g ( italic_u ) ∈ fraktur_G for each uΩ𝑢Ωu\in\Omegaitalic_u ∈ roman_Ω

Further considerations enter the picture when we look at filters on manifolds with a larger spatial support. Let us first consider an easy example of a mapping f:𝒳(Ω,)𝒳(Ω,):𝑓𝒳Ω𝒳Ωf:\mathcal{X}(\Omega,\mathbb{R})\rightarrow\mathcal{X}(\Omega,\mathbb{R})italic_f : caligraphic_X ( roman_Ω , blackboard_R ) → caligraphic_X ( roman_Ω , blackboard_R ) from scalar fields to scalar fields on an s𝑠sitalic_s-dimensional manifold ΩΩ\Omegaroman_Ω. Unlike vectors and other geometric quantities, scalars do not have an orientation, so a scalar field x𝒳(Ω,)𝑥𝒳Ωx\in\mathcal{X}(\Omega,\mathbb{R})italic_x ∈ caligraphic_X ( roman_Ω , blackboard_R ) is invariant to gauge transformations (it transforms according to the trivial representation ρ(𝔤)=1𝜌𝔤1\rho({\mathfrak{g}})=1italic_ρ ( fraktur_g ) = 1). Hence, any linear map from scalar fields to scalar fields is gauge equivariant (or invariant, which is the same in this case). For example, we could write f𝑓fitalic_f similarly to (19), as a convolution-like operation with a position-dependent filter θ:Ω×Ω:𝜃ΩΩ\theta:\Omega\times\Omega\rightarrow\mathbb{R}italic_θ : roman_Ω × roman_Ω → blackboard_R,

(xθ)(u)=Ωθ(u,v)x(v)dv.𝑥𝜃𝑢subscriptΩ𝜃𝑢𝑣𝑥𝑣differential-d𝑣(x\star\theta)(u)=\int_{\Omega}\theta(u,v)x(v)\mathrm{d}v.( italic_x ⋆ italic_θ ) ( italic_u ) = ∫ start_POSTSUBSCRIPT roman_Ω end_POSTSUBSCRIPT italic_θ ( italic_u , italic_v ) italic_x ( italic_v ) roman_d italic_v . (22)

이것은 각 지점에서 잠재적으로 다른 필터 θu=θ(u,)subscript𝜃𝑢𝜃𝑢\theta_{u}=\theta(u,\cdot)italic_θ start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = italic_θ ( italic_u , ⋅ ) 즉, 게이지 대칭만으로는 제공되지 않는 공간 가중치 공유가 없음을 의미한다.

Consider now a more interesting case of a mapping f:𝒳(Ω,TΩ)𝒳(Ω,TΩ):𝑓𝒳Ω𝑇Ω𝒳Ω𝑇Ωf:\mathcal{X}(\Omega,T\Omega)\rightarrow\mathcal{X}(\Omega,T\Omega)italic_f : caligraphic_X ( roman_Ω , italic_T roman_Ω ) → caligraphic_X ( roman_Ω , italic_T roman_Ω ) from vector fields to vector fields. Relative to a gauge, the input and output vector fields X,Y𝒳(Ω,TΩ)𝑋𝑌𝒳Ω𝑇ΩX,Y\in\mathcal{X}(\Omega,T\Omega)italic_X , italic_Y ∈ caligraphic_X ( roman_Ω , italic_T roman_Ω ) are vector-valued functions 𝐱,𝐲𝒳(Ω,s)𝐱𝐲𝒳Ωsuperscript𝑠\mathbf{x},\mathbf{y}\in\mathcal{X}(\Omega,\mathbb{R}^{s})bold_x , bold_y ∈ caligraphic_X ( roman_Ω , blackboard_R start_POSTSUPERSCRIPT italic_s end_POSTSUPERSCRIPT ). A general linear map between such functions can be written using the same equation we used for scalars (22), only replacing the scalar kernel by a matrix-valued one 𝚯:Ω×Ωs×s:𝚯ΩΩsuperscript𝑠𝑠\bm{\Theta}:\Omega\times\Omega\rightarrow\mathbb{R}^{s\times s}bold_Θ : roman_Ω × roman_Ω → blackboard_R start_POSTSUPERSCRIPT italic_s × italic_s end_POSTSUPERSCRIPT. The matrix 𝚯(u,v)𝚯𝑢𝑣\bm{\Theta}(u,v)bold_Θ ( italic_u , italic_v ) should map tangent vectors in TvΩsubscript𝑇𝑣ΩT_{v}\Omegaitalic_T start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT roman_Ω to tangent vectors in TuΩsubscript𝑇𝑢ΩT_{u}\Omegaitalic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω, but these points have different gauges that we may change arbitrarily and independently. That is, the filter would have to satisfy 𝚯(u,v)=ρ1(𝔤(u))𝚯(u,v)ρ(𝔤(v))𝚯𝑢𝑣superscript𝜌1𝔤𝑢𝚯𝑢𝑣𝜌𝔤𝑣\bm{\Theta}(u,v)=\rho^{-1}({\mathfrak{g}}(u))\bm{\Theta}(u,v)\rho({\mathfrak{g}}(v))bold_Θ ( italic_u , italic_v ) = italic_ρ start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ( fraktur_g ( italic_u ) ) bold_Θ ( italic_u , italic_v ) italic_ρ ( fraktur_g ( italic_v ) ) for all u,vΩ𝑢𝑣Ωu,v\in\Omegaitalic_u , italic_v ∈ roman_Ω, where ρ𝜌\rhoitalic_ρ denotes the action of 𝔊𝔊{\mathfrak{G}}fraktur_G on vectors, given by an s×s𝑠𝑠s\times sitalic_s × italic_s rotation matrix. Since 𝔤(u)𝔤𝑢{\mathfrak{g}}(u)fraktur_g ( italic_u ) and 𝔤(v)𝔤𝑣{\mathfrak{g}}(v)fraktur_g ( italic_v ) can be chosen freely, this is an overly strong constraint on the filter. 109109109Indeed 𝚯𝚯\bm{\Theta}bold_Θ would have to be zero in this case

더 나은 접근법은 먼저 연결을 통해 벡터를 공통 접선 공간으로 수송한 다음 한 점에서만 게이지 등분산 wrt 단일 게이지 변환을 부과하는 것이다. (22) 대신에, 우리는 그 다음에 벡터 필드들 사이의 다음의 맵을 정의할 수 있고,

(𝐱𝚯)(u)=Ω𝚯(u,v)ρ(𝔤vu)𝐱(v)dv,𝐱𝚯𝑢subscriptΩ𝚯𝑢𝑣𝜌subscript𝔤𝑣𝑢𝐱𝑣differential-d𝑣(\mathbf{x}\star\bm{\Theta})(u)=\int_{\Omega}\bm{\Theta}(u,v)\rho({\mathfrak{g}}_{v\rightarrow u})\mathbf{x}(v)\mathrm{d}v,( bold_x ⋆ bold_Θ ) ( italic_u ) = ∫ start_POSTSUBSCRIPT roman_Ω end_POSTSUBSCRIPT bold_Θ ( italic_u , italic_v ) italic_ρ ( fraktur_g start_POSTSUBSCRIPT italic_v → italic_u end_POSTSUBSCRIPT ) bold_x ( italic_v ) roman_d italic_v , (23)

where 𝔤vu𝔊subscript𝔤𝑣𝑢𝔊{\mathfrak{g}}_{v\rightarrow u}\in{\mathfrak{G}}fraktur_g start_POSTSUBSCRIPT italic_v → italic_u end_POSTSUBSCRIPT ∈ fraktur_G denotes the parallel transport from v𝑣vitalic_v to u𝑢uitalic_u along the geodesic connecting these two points; its representation ρ(𝔤vu)𝜌subscript𝔤𝑣𝑢\rho({\mathfrak{g}}_{v\rightarrow u})italic_ρ ( fraktur_g start_POSTSUBSCRIPT italic_v → italic_u end_POSTSUBSCRIPT ) is an s×s𝑠𝑠s\times sitalic_s × italic_s rotation matrix rotating the vector as it moves between the points. Note that this geodesic is assumed to be unique, which is true only locally and thus the filter must have a local support. Under a gauge transformation 𝔤usubscript𝔤𝑢{\mathfrak{g}}_{u}fraktur_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT, this element transforms as 𝔤uv𝔤u1𝔤uv𝔤vmaps-tosubscript𝔤𝑢𝑣superscriptsubscript𝔤𝑢1subscript𝔤𝑢𝑣subscript𝔤𝑣{\mathfrak{g}}_{u\rightarrow v}\mapsto{\mathfrak{g}}_{u}^{-1}{\mathfrak{g}}_{u\rightarrow v}{\mathfrak{g}}_{v}fraktur_g start_POSTSUBSCRIPT italic_u → italic_v end_POSTSUBSCRIPT ↦ fraktur_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT fraktur_g start_POSTSUBSCRIPT italic_u → italic_v end_POSTSUBSCRIPT fraktur_g start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT, and the field itself transforms as 𝐱(v)ρ(𝔤v)𝐱(v)maps-to𝐱𝑣𝜌subscript𝔤𝑣𝐱𝑣\mathbf{x}(v)\mapsto\rho({\mathfrak{g}}_{v})\mathbf{x}(v)bold_x ( italic_v ) ↦ italic_ρ ( fraktur_g start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ) bold_x ( italic_v ). If the filter commutes with the structure group representation 𝚯(u,v)ρ(𝔤u)=ρ(𝔤u)𝚯(u,v)𝚯𝑢𝑣𝜌subscript𝔤𝑢𝜌subscript𝔤𝑢𝚯𝑢𝑣\bm{\Theta}(u,v)\rho({\mathfrak{g}}_{u})=\rho({\mathfrak{g}}_{u})\bm{\Theta}(u,v)bold_Θ ( italic_u , italic_v ) italic_ρ ( fraktur_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ) = italic_ρ ( fraktur_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ) bold_Θ ( italic_u , italic_v ), equation (23) defines a gauge-equivariant convolution, which transforms as

(𝐱𝚯)(u)=ρ1(𝔤u)(𝐱𝚯)(u).superscript𝐱𝚯𝑢superscript𝜌1subscript𝔤𝑢𝐱𝚯𝑢(\mathbf{x}^{\prime}\star\bm{\Theta})(u)=\rho^{-1}({\mathfrak{g}}_{u})(\mathbf{x}\star\bm{\Theta})(u).( bold_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ⋆ bold_Θ ) ( italic_u ) = italic_ρ start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ( fraktur_g start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ) ( bold_x ⋆ bold_Θ ) ( italic_u ) .

앞서 언급한 변신에 따라.

4.6 Geometric graphs and Meshes

우리는 geometric graphs (즉, 일부 기하학적 공간에서 실현될 수 있는 그래프) 및 meshes으로 서로 다른 기하학적 도메인에 대한 논의를 마무리할 것이다. 기하 영역의 '5G'에서 메쉬는 그래프와 다양체 사이의 어딘가에 속한다: 많은 면에서, 그래프는 그래프와 유사하지만, 그들의 추가적인 구조는 연속적인 물체들과 유사하게 다룰 수 있게 한다. 이러한 이유로 우리는 메쉬를 스킴에서 독립 객체로 간주하지 않으며 실제로 메쉬에 대해 이 섹션에서 파생된 많은 구성이 일반 그래프에도 직접 적용할 수 있음을 강조할 것이다.

우리가 이미 섹션 4.4에서 언급했듯이, 2차원 매니폴드(표면)는 3D 객체(또는 더 좋게 말하면 그러한 객체의 경계 표면)를 모델링하는 일반적인 방법이다. 컴퓨터 그래픽 및 비전 응용 프로그램에서 이러한 표면은 종종 triangular meshes, 110110110Triangular meshes are examples of topological structures known as simplicial complexes.으로 이산화되며, 이는 삼각형을 가장자리를 따라 함께 접착하여 얻은 표면의 조각 단위 평면 근사치로 대략 생각할 수 있다. Meshes는 따라서 (unirected) graphs with additional structure: 노드 및 에지 외에도, 메시 𝒯=(𝒱,,)𝒯𝒱\mathcal{T}=(\mathcal{V},\mathcal{E},\mathcal{F})caligraphic_T = ( caligraphic_V , caligraphic_E , caligraphic_F )triangular faces ={(u,v,q):u,v,q𝒱and(u,v),(u,q),(q,v)}conditional-set𝑢𝑣𝑞formulae-sequence𝑢𝑣𝑞𝒱and𝑢𝑣𝑢𝑞𝑞𝑣\mathcal{F}=\{(u,v,q):u,v,q\in\mathcal{V}\,\,\,\text{and}\,\,\,(u,v),(u,q),(q,v)\in\mathcal{E}\}caligraphic_F = { ( italic_u , italic_v , italic_q ) : italic_u , italic_v , italic_q ∈ caligraphic_V and ( italic_u , italic_v ) , ( italic_u , italic_q ) , ( italic_q , italic_v ) ∈ caligraphic_E }; 노드의 순서는 페이스 orientation을 정의한다. 111111111 [Uncaptioned image]
Examples of manifold (top) and non-manifold (bottom) edges and nodes. For manifolds with boundary, one further defines boundary edges that belong to exactly one triangle.

또한, 각 모서리는 정확히 두 개의 삼각형에 의해 공유되고, 각 노드에 입사하는 모든 삼각형의 경계는 모서리의 단일 루프를 형성한다고 가정한다. 이 조건은 각 노드 주변의 1-홉 이웃이 디스크형이고 따라서 메시가 discrete manifold – 그러한 메시를 manifold meshes이라고 한다. 리만 매니폴드와 유사하게 메시에서 metric을 정의할 수 있습니다. 가장 간단한 예에서, 메시 노드 𝐱1,,𝐱nsubscript𝐱1subscript𝐱𝑛\mathbf{x}_{1},\ldots,\mathbf{x}_{n}bold_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , bold_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT의 임베딩으로부터 유도될 수 있고, 에지의 유클리드 길이, uv=𝐱u𝐱vsubscript𝑢𝑣normsubscript𝐱𝑢subscript𝐱𝑣\ell_{uv}=\|\mathbf{x}_{u}-\mathbf{x}_{v}\|roman_ℓ start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT = ∥ bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT - bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ∥를 통해 표현될 수 있다. 이러한 방식으로 정의된 메트릭은 triangle inequality, 즉, 임의의 (u,v,q)𝑢𝑣𝑞(u,v,q)\in\mathcal{F}( italic_u , italic_v , italic_q ) ∈ caligraphic_F 및 에지의 임의의 조합에 대한 uvuq+vqsubscript𝑢𝑣subscript𝑢𝑞subscript𝑣𝑞\ell_{uv}\leq\ell_{uq}+\ell_{vq}roman_ℓ start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT ≤ roman_ℓ start_POSTSUBSCRIPT italic_u italic_q end_POSTSUBSCRIPT + roman_ℓ start_POSTSUBSCRIPT italic_v italic_q end_POSTSUBSCRIPT 형식의 표현을 자동으로 만족시킨다. \ellroman_ℓ로만 표현될 수 있는 임의의 속성은 intrinsic이고, 메시 보존 \ellroman_ℓ의 임의의 변형은 isometry – 이러한 개념들은 섹션 4.4에서 우리의 논의로부터 이미 독자에게 익숙하다.

Laplacian matrices

그래프의 처리와 유사하게, 각각 d𝑑ditalic_d차원 특징 벡터와 연관된 n×d𝑛𝑑n\times ditalic_n × italic_d 행렬 𝐗𝐗\mathbf{X}bold_X로 배열(임의의 순서를 가정)할 수 있는 n𝑛nitalic_n 노드를 갖는 (다양체) 메쉬를 가정하자. 특징들은 컬러들, 정규들 등과 같은 추가적인 특성들뿐만 아니라 노드들의 기하학적 좌표들, 또는 기하학적 그래프들이 분자들을 모델링하는 화학과 같은 특정 응용들에서, 원자 번호와 같은 특성들을 나타낼 수 있다.

먼저, 우리가 독자들에게 상기시키는 메쉬 상의 스펙트럼 컨볼루션(17)이 라플라시안 연산자로부터 발생함을 살펴보자. 메쉬를 기본 연속 표면의 이산화로 간주하면 라플라시아를 이산화할 수 있다.

(𝚫𝐗)u=v𝒩uwuv(𝐱u𝐱v),subscript𝚫𝐗𝑢subscript𝑣subscript𝒩𝑢subscript𝑤𝑢𝑣subscript𝐱𝑢subscript𝐱𝑣(\bm{\Delta}\mathbf{X})_{u}=\sum_{v\in\mathcal{N}_{u}}w_{uv}(\mathbf{x}_{u}-\mathbf{x}_{v}),( bold_Δ bold_X ) start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = ∑ start_POSTSUBSCRIPT italic_v ∈ caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT end_POSTSUBSCRIPT italic_w start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT - bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ) , (24)

or in matrix-vector notation, as an n×n𝑛𝑛n\times nitalic_n × italic_n symmetric matrix 𝚫=𝐃𝐖𝚫𝐃𝐖\bm{\Delta}=\mathbf{D}-\mathbf{W}bold_Δ = bold_D - bold_W, where 𝐃=diag(d1,,dn)𝐃diagsubscript𝑑1subscript𝑑𝑛\mathbf{D}=\mathrm{diag}(d_{1},\ldots,d_{n})bold_D = roman_diag ( italic_d start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , italic_d start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) is called the degree matrix and du=vwuvsubscript𝑑𝑢subscript𝑣subscript𝑤𝑢𝑣d_{u}=\sum_{v}w_{uv}italic_d start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = ∑ start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT italic_w start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT the degree of node u𝑢uitalic_u. It is easy to see that equation (24) performs local permutation-invariant aggregation of neighbour features ϕ(𝐱u,𝐗𝒩u)=du𝐱uv𝒩uwuv𝐱vitalic-ϕsubscript𝐱𝑢subscript𝐗subscript𝒩𝑢subscript𝑑𝑢subscript𝐱𝑢subscript𝑣subscript𝒩𝑢subscript𝑤𝑢𝑣subscript𝐱𝑣\phi(\mathbf{x}_{u},\mathbf{X}_{\mathcal{N}_{u}})=d_{u}\mathbf{x}_{u}-\sum_{v\in\mathcal{N}_{u}}w_{uv}\mathbf{x}_{v}italic_ϕ ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_X start_POSTSUBSCRIPT caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT end_POSTSUBSCRIPT ) = italic_d start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT - ∑ start_POSTSUBSCRIPT italic_v ∈ caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT end_POSTSUBSCRIPT italic_w start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT, and 𝐅(𝐗)=𝚫𝐗𝐅𝐗𝚫𝐗\mathbf{F}(\mathbf{X})=\bm{\Delta}\mathbf{X}bold_F ( bold_X ) = bold_Δ bold_X is in fact an instance of our general blueprint (13) for constructing permutation-equivariant functions on graphs.

지금까지 Laplacian in (24)의 정의에서 specific to meshes이 없다는 점에 유의하세요; 사실, 이 구성은 임의의 그래프에도 유효하며, 인접 행렬, 𝐖=𝐀𝐖𝐀\mathbf{W}=\mathbf{A}bold_W = bold_A, 즉 wuv=1subscript𝑤𝑢𝑣1w_{uv}=1italic_w start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT = 1112112112The degree in this case equals the number of neighbours. if (u,v)𝑢𝑣(u,v)\in\mathcal{E}( italic_u , italic_v ) ∈ caligraphic_E 및 그렇지 않으면 0으로 식별된다. 이러한 방식으로 구성된 라플라시안들은 종종 그래프의 연결 구조를 캡처한다는 사실을 반영하기 위해 combinatorial이라고 불린다. 113113113If the graph is directed, the corresponding Laplacian is non-symmetric. 기하 그래프의 경우(메쉬의 추가 구조를 반드시 가질 필요는 없지만, 노드들이 에지 길이의 형태로 메트릭을 유도하는 공간 좌표를 갖는 경우), 메트릭에 반비례하는 가중치, 예를 들어 wuveuvproportional-tosubscript𝑤𝑢𝑣superscript𝑒subscript𝑢𝑣w_{uv}\propto e^{-\ell_{uv}}italic_w start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT ∝ italic_e start_POSTSUPERSCRIPT - roman_ℓ start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT end_POSTSUPERSCRIPT를 사용하는 것이 일반적이다.

메시에서 면이 제공하는 추가 구조를 활용할 수 있으며 cotangent formula (Pinkall and Polthier, 1993; Meyer et al., 2003)114114114 [Uncaptioned image] The earliest use of this formula dates back to the PhD thesis of MacNeal (1949), who developed it to solve PDEs on the Caltech Electric Analog Computer.

wuv=cotuqv+cotupv2ausubscript𝑤𝑢𝑣subscript𝑢𝑞𝑣subscript𝑢𝑝𝑣2subscript𝑎𝑢w_{uv}=\frac{\cot\angle_{uqv}+\cot\angle_{upv}}{2a_{u}}italic_w start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT = divide start_ARG roman_cot ∠ start_POSTSUBSCRIPT italic_u italic_q italic_v end_POSTSUBSCRIPT + roman_cot ∠ start_POSTSUBSCRIPT italic_u italic_p italic_v end_POSTSUBSCRIPT end_ARG start_ARG 2 italic_a start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT end_ARG (25)

where uqvsubscript𝑢𝑞𝑣\angle_{uqv}∠ start_POSTSUBSCRIPT italic_u italic_q italic_v end_POSTSUBSCRIPT and upvsubscript𝑢𝑝𝑣\angle_{upv}∠ start_POSTSUBSCRIPT italic_u italic_p italic_v end_POSTSUBSCRIPT are the two angles in the triangles (u,q,v)𝑢𝑞𝑣(u,q,v)( italic_u , italic_q , italic_v ) and (u,p,v)𝑢𝑝𝑣(u,p,v)( italic_u , italic_p , italic_v ) opposite the shared edge (u,v)𝑢𝑣(u,v)( italic_u , italic_v ), and ausubscript𝑎𝑢a_{u}italic_a start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT is the local area element, typically computed as the area of the polygon constructed upon the barycenters of the triangles (u,p,q)𝑢𝑝𝑞(u,p,q)( italic_u , italic_p , italic_q ) sharing the node u𝑢uitalic_u and given by au=13v,q:(u,v,q)auvqsubscript𝑎𝑢13subscript:𝑣𝑞𝑢𝑣𝑞subscript𝑎𝑢𝑣𝑞a_{u}=\frac{1}{3}\sum_{v,q:(u,v,q)\in\mathcal{F}}a_{uvq}italic_a start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = divide start_ARG 1 end_ARG start_ARG 3 end_ARG ∑ start_POSTSUBSCRIPT italic_v , italic_q : ( italic_u , italic_v , italic_q ) ∈ caligraphic_F end_POSTSUBSCRIPT italic_a start_POSTSUBSCRIPT italic_u italic_v italic_q end_POSTSUBSCRIPT.

코탄젠트 라플라시안(cotangent Laplacian)은 다수의 편리한 속성을 갖는 것으로 보여질 수 있다(e.g. Wardetzky et al. (2007) 참조): positive-semidefinite 행렬, 𝚫0succeeds-or-equals𝚫0\bm{\Delta}\succcurlyeq 0bold_Δ ≽ 0이며, 따라서 주파수의 유사성으로 간주될 수 있는 비음수 고유값 λ1λnsubscript𝜆1subscript𝜆𝑛\lambda_{1}\leq\ldots\leq\lambda_{n}italic_λ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ≤ … ≤ italic_λ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT를 가지며, 대칭이고 따라서 직교 고유벡터를 가지며, local(즉, (𝚫𝐗)usubscript𝚫𝐗𝑢(\bm{\Delta}\mathbf{X})_{u}( bold_Δ bold_X ) start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT의 값은 1홉 이웃에만 의존하며, 𝒩usubscript𝒩𝑢\mathcal{N}_{u}caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT). 아마도 가장 중요한 속성은 메쉬가 무한정 정제된 (Wardetzky, 2008)일 때 코탄젠트 메쉬 라플라시안 행렬 𝚫𝚫\bm{\Delta}bold_Δ가 연속 연산자 ΔΔ\Deltaroman_Δ로 수렴하는 것이다. 방정식 (25)은 따라서 섹션 4.4에서 Riemannian manifolds에 정의된 Laplacian 연산자의 적절한 discretisation115115115Some technical conditions must be imposed on the refinement, to avoid e.g. triangles becoming pathological. One such example is a bizarre triangulation of the cylinder known in German as the Schwarzscher Stiefel (Schwarz’s boot) or in English literature as the ‘Schwarz lantern’, proposed in 1880 by Hermann Schwarz, a German mathematician known from the Cauchy-Schwarz inequality fame. 을 구성한다.

하나는 라플라시안(Laplacian)이 내재적일 것으로 예상하지만, 이것은 방정식 (25)으로부터 매우 명백하지 않으며, 코탄젠트 가중치를 이산 메트릭의 관점에서 완전히 표현하기 위해 약간의 노력이 필요하다\ellroman_ℓ as

wuv=uv2+vq2+uq28auvq+uv2+vp2+up28auvpsubscript𝑤𝑢𝑣subscriptsuperscript2𝑢𝑣subscriptsuperscript2𝑣𝑞subscriptsuperscript2𝑢𝑞8subscript𝑎𝑢𝑣𝑞subscriptsuperscript2𝑢𝑣subscriptsuperscript2𝑣𝑝subscriptsuperscript2𝑢𝑝8subscript𝑎𝑢𝑣𝑝w_{uv}=\frac{-\ell^{2}_{uv}+\ell^{2}_{vq}+\ell^{2}_{uq}}{8a_{uvq}}+\frac{-\ell^{2}_{uv}+\ell^{2}_{vp}+\ell^{2}_{up}}{8a_{uvp}}italic_w start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT = divide start_ARG - roman_ℓ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT + roman_ℓ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_v italic_q end_POSTSUBSCRIPT + roman_ℓ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u italic_q end_POSTSUBSCRIPT end_ARG start_ARG 8 italic_a start_POSTSUBSCRIPT italic_u italic_v italic_q end_POSTSUBSCRIPT end_ARG + divide start_ARG - roman_ℓ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT + roman_ℓ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_v italic_p end_POSTSUBSCRIPT + roman_ℓ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u italic_p end_POSTSUBSCRIPT end_ARG start_ARG 8 italic_a start_POSTSUBSCRIPT italic_u italic_v italic_p end_POSTSUBSCRIPT end_ARG

where the area of the triangles aijksubscript𝑎𝑖𝑗𝑘a_{ijk}italic_a start_POSTSUBSCRIPT italic_i italic_j italic_k end_POSTSUBSCRIPT is given as

auvq=suvq(suvquv)(suvqvq)(suvquq)subscript𝑎𝑢𝑣𝑞subscript𝑠𝑢𝑣𝑞subscript𝑠𝑢𝑣𝑞subscript𝑢𝑣subscript𝑠𝑢𝑣𝑞subscript𝑣𝑞subscript𝑠𝑢𝑣𝑞subscript𝑢𝑞a_{uvq}=\sqrt{s_{uvq}(s_{uvq}-\ell_{uv})(s_{uvq}-\ell_{vq})(s_{uvq}-\ell_{uq})}italic_a start_POSTSUBSCRIPT italic_u italic_v italic_q end_POSTSUBSCRIPT = square-root start_ARG italic_s start_POSTSUBSCRIPT italic_u italic_v italic_q end_POSTSUBSCRIPT ( italic_s start_POSTSUBSCRIPT italic_u italic_v italic_q end_POSTSUBSCRIPT - roman_ℓ start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT ) ( italic_s start_POSTSUBSCRIPT italic_u italic_v italic_q end_POSTSUBSCRIPT - roman_ℓ start_POSTSUBSCRIPT italic_v italic_q end_POSTSUBSCRIPT ) ( italic_s start_POSTSUBSCRIPT italic_u italic_v italic_q end_POSTSUBSCRIPT - roman_ℓ start_POSTSUBSCRIPT italic_u italic_q end_POSTSUBSCRIPT ) end_ARG

using Heron’s semiperimeter formula with suvq=12(uv+uq+vq)subscript𝑠𝑢𝑣𝑞12subscript𝑢𝑣subscript𝑢𝑞subscript𝑣𝑞s_{uvq}=\frac{1}{2}(\ell_{uv}+\ell_{uq}+\ell_{vq})italic_s start_POSTSUBSCRIPT italic_u italic_v italic_q end_POSTSUBSCRIPT = divide start_ARG 1 end_ARG start_ARG 2 end_ARG ( roman_ℓ start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT + roman_ℓ start_POSTSUBSCRIPT italic_u italic_q end_POSTSUBSCRIPT + roman_ℓ start_POSTSUBSCRIPT italic_v italic_q end_POSTSUBSCRIPT ). 이것은 라플라시안(및 그것의 고유 벡터들 및 고유 값들과 연관된 임의의 양들)을 isometry invariance, 이것이 기하학 처리 및 컴퓨터 그래픽에서 매우 사랑받는 속성(Wang and Solomon (2019)에 의한 우수한 리뷰 참조): 메트릭 \ellroman_ℓ에 영향을 미치지 않는 메쉬의 임의의 변형(메쉬의 에지들을 ‘스트레치’ 또는 ‘스퀴즈’하지 않음)은 라플라시안(라플라시안)을 변화시키지 않는다.

마지막으로, 우리가 이미 알아차린 바와 같이, 116116116 [Uncaptioned image] Laplacian-based filters are isotropic. In the plane, such filters have radial symmetry. Laplacian의 정의(25)는 합산의 형태로 집계를 포함하기 때문에 𝒩usubscript𝒩𝑢\mathcal{N}_{u}caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT에서 노드의 순열에 불변한다. 일반적인 그래프에서는 이웃의 정준적 순서가 없기 때문에 필요악이지만 메쉬에서는 어떤 방향(예: 시계 방향)에 따라 1홉 이웃을 주문할 수 있으며 유일한 모호성은 첫 번째 노드의 선택이다. 따라서 가능한 치환 대신 cyclic shifts (rotations)를 설명할 필요가 있으며, 이는 섹션 4.5에서 논의된 SO(2)SO2\mathrm{SO}(2)roman_SO ( 2 ) 게이지 변환에서 발생하는 모호성에 직관적으로 대응한다. 고정 게이지의 경우 로컬 방향 및 메트릭 또는 가중치 wuvsubscript𝑤𝑢𝑣w_{uv}italic_w start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT를 변경하는 양에 민감한 anisotropic Laplacian을 정의할 수 있습니다. 이러한 종류의 구성은 Andreux et al. (2014); Boscaini et al. (2016b)에 의해 형상 기술자를 설계하고 초기 기하학 딥 러닝 아키텍처에서 Boscaini et al. (2016a)에 의해 메쉬 상의 형상 기술자를 설계하는 데 사용되었다.

Spectral analysis on meshes

The orthogonal eigenvectors 𝚽=(𝝋1,,𝝋n)𝚽subscript𝝋1subscript𝝋𝑛\bm{\Phi}=(\bm{\varphi}_{1},\ldots,\bm{\varphi}_{n})bold_Φ = ( bold_italic_φ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , bold_italic_φ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) diagonalising the Laplacian matrix (𝚫=𝚽𝚲𝚽𝚫𝚽𝚲superscript𝚽top\bm{\Delta}=\bm{\Phi}\bm{\Lambda}\bm{\Phi}^{\top}bold_Δ = bold_Φ bold_Λ bold_Φ start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT, where 𝚲=diag(λ1,,λn)𝚲diagsubscript𝜆1subscript𝜆𝑛\bm{\Lambda}=\mathrm{diag}(\lambda_{1},\ldots,\lambda_{n})bold_Λ = roman_diag ( italic_λ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , italic_λ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) is the diagonal matrix of Laplacian eigenvalues), are used as the non-Euclidean analogy of the Fourier basis, allowing to perform spectral convolution on the mesh as the product of the respective Fourier transforms,

𝐗𝜽=𝚽diag(𝚽𝜽)(𝚽𝐗)=𝚽diag(𝜽^)𝐗^,𝐗𝜽𝚽diagsuperscript𝚽top𝜽superscript𝚽top𝐗𝚽diag^𝜽^𝐗\mathbf{X}\star\bm{\theta}=\bm{\Phi}\,\mathrm{diag}(\bm{\Phi}^{\top}\bm{\theta})(\bm{\Phi}^{\top}\mathbf{X})=\bm{\Phi}\,\mathrm{diag}(\hat{\bm{\theta}})\hat{\mathbf{X}},bold_X ⋆ bold_italic_θ = bold_Φ roman_diag ( bold_Φ start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT bold_italic_θ ) ( bold_Φ start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT bold_X ) = bold_Φ roman_diag ( over^ start_ARG bold_italic_θ end_ARG ) over^ start_ARG bold_X end_ARG ,

여기서 필터 𝜽^^𝜽\hat{\bm{\theta}}over^ start_ARG bold_italic_θ end_ARG는 푸리에 도메인에서 직접 설계된다. 다시 말하지만, 이 공식의 어떤 것도 메쉬에 특정되지 않으며 일반(무지향) 그래프의 라플라시안 행렬을 사용할 수 있다. 117117117The fact that the graph is assumed to be undirected is important: in this case the Laplacian is symmetric and has orthogonal eigenvectors.CNN을 그래프로 일반화하기 위해 컨볼루션의 이러한 스펙트럼 정의를 이용하는 것은 유혹적이며, 이는 실제로 이 텍스트의 저자 중 한 명인 Bruna et al. (2013)에 의해 수행되었다. 그러나, 비-유클리드 푸리에 변환은 기본 메시 또는 그래프의 사소한 섭동에도 극도로 민감한 것으로 나타난다(섹션 12 참조). 따라서, fixed 도메인에서 다른 신호를 처리해야 하는 경우에만 사용할 수 있지만, different domains에 걸쳐 일반화를 원하는 경우에는 사용할 수 없다. 운 좋게도, 많은 컴퓨터 그래픽 및 비전 문제가 후자의 범주에 속하는데, 여기서 하나는 3D 형상(메쉬)의 한 세트에서 신경망을 훈련시키고 다른 세트에서 테스트하여 푸리에 변환 기반 접근법을 부적절하게 만든다.

As noted in Section 4.4, it is preferable to use spectral filters of the form (18) applying some transfer function p^(λ)^𝑝𝜆\hat{p}(\lambda)over^ start_ARG italic_p end_ARG ( italic_λ ) to the Laplacian matrix,

p^(𝚫)𝐗=𝚽p^(𝚲)𝚽𝐗=𝚽diag(p^(λ1),,p^(λn))𝐗^.^𝑝𝚫𝐗𝚽^𝑝𝚲superscript𝚽top𝐗𝚽diag^𝑝subscript𝜆1^𝑝subscript𝜆𝑛^𝐗\hat{p}(\bm{\Delta})\mathbf{X}=\bm{\Phi}\hat{p}(\bm{\Lambda})\bm{\Phi}^{\top}\mathbf{X}=\bm{\Phi}\,\mathrm{diag}(\hat{p}(\lambda_{1}),\ldots,\hat{p}(\lambda_{n}))\hat{\mathbf{X}}.over^ start_ARG italic_p end_ARG ( bold_Δ ) bold_X = bold_Φ over^ start_ARG italic_p end_ARG ( bold_Λ ) bold_Φ start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT bold_X = bold_Φ roman_diag ( over^ start_ARG italic_p end_ARG ( italic_λ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ) , … , over^ start_ARG italic_p end_ARG ( italic_λ start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) ) over^ start_ARG bold_X end_ARG .

When p^^𝑝\hat{p}over^ start_ARG italic_p end_ARG can be expressed in terms of matrix-vector products, the eigendecomposition of the n×n𝑛𝑛n\times nitalic_n × italic_n matrix 𝚫𝚫\bm{\Delta}bold_Δ 118118118In the general case, the complexity of eigendecomposition is 𝒪(n3)𝒪superscript𝑛3\mathcal{O}(n^{3})caligraphic_O ( italic_n start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT ).can be avoided altogether. For example, Defferrard et al. (2016) used polynomials of degree r𝑟ritalic_r as filter functions,

p^(𝚫)𝐗=k=0rαk𝚫k𝐗=α0𝐗+α1𝚫𝐗++αr𝚫r𝐗,^𝑝𝚫𝐗superscriptsubscript𝑘0𝑟subscript𝛼𝑘superscript𝚫𝑘𝐗subscript𝛼0𝐗subscript𝛼1𝚫𝐗subscript𝛼𝑟superscript𝚫𝑟𝐗\hat{p}(\bm{\Delta})\mathbf{X}=\sum_{k=0}^{r}\alpha_{k}\bm{\Delta}^{k}\mathbf{X}=\alpha_{0}\mathbf{X}+\alpha_{1}\bm{\Delta}\mathbf{X}+\ldots+\alpha_{r}\bm{\Delta}^{r}\mathbf{X},over^ start_ARG italic_p end_ARG ( bold_Δ ) bold_X = ∑ start_POSTSUBSCRIPT italic_k = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_r end_POSTSUPERSCRIPT italic_α start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT bold_Δ start_POSTSUPERSCRIPT italic_k end_POSTSUPERSCRIPT bold_X = italic_α start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT bold_X + italic_α start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT bold_Δ bold_X + … + italic_α start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT bold_Δ start_POSTSUPERSCRIPT italic_r end_POSTSUPERSCRIPT bold_X ,

amounting to the multiplication of the n×d𝑛𝑑n\times ditalic_n × italic_d feature matrix 𝐗𝐗\mathbf{X}bold_X by the n×n𝑛𝑛n\times nitalic_n × italic_n Laplacian matrix r𝑟ritalic_r times. Since the Laplacian is typically sparse (with 𝒪(||)𝒪\mathcal{O}(|\mathcal{E}|)caligraphic_O ( | caligraphic_E | ) non-zero elements) 119119119Meshes are nearly-regular graphs, with each node having 𝒪(1)𝒪1\mathcal{O}(1)caligraphic_O ( 1 ) neighbours, resulting in 𝒪(n)𝒪𝑛\mathcal{O}(n)caligraphic_O ( italic_n ) non-zeros in 𝚫𝚫\bm{\Delta}bold_Δ. this operation has low complexity of 𝒪(||dr)𝒪(||)similar-to𝒪𝑑𝑟𝒪\mathcal{O}(|\mathcal{E}|dr)\sim\mathcal{O}(|\mathcal{E}|)caligraphic_O ( | caligraphic_E | italic_d italic_r ) ∼ caligraphic_O ( | caligraphic_E | ). Furthermore, since the Laplacian is local, a polynomial filter of degree r𝑟ritalic_r is localised in r𝑟ritalic_r-hop neighbourhood.

그러나, 필터의 실제 지원(즉, 그것이 커버하는 반경)이 메쉬의 resolution에 의존하기 때문에, 이러한 정확한 속성은 메쉬를 다룰 때 불리하게 된다. 하나는 기본 연속 표면의 이산화로부터 메시가 발생한다는 것을 명심해야 하며, 하나는 the same object을 나타내는 두 개의 서로 다른 메시 𝒯𝒯\mathcal{T}caligraphic_T𝒯superscript𝒯\mathcal{T}^{\prime}caligraphic_T start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT를 가질 수 있다. 120120120 [Uncaptioned image]
Two-hop neighbourhoods on meshes of different resolution.
더 미세한 메쉬에서는 더 거친 메쉬보다 더 큰 이웃(따라서 필터의 더 큰 정도r𝑟ritalic_r)을 사용해야 할 수 있다.

이러한 이유로 컴퓨터 그래픽 응용 프로그램에서는 해상도 독립적이기 때문에 rational filters을 사용하는 것이 더 일반적이다. 그러한 필터들을 정의하는 많은 방법들이 있다(예를 들어, Patanè (2020) 참조), 가장 일반적인 것은 일부 유리 함수의 다항식으로서, 예를 들어, λ1λ+1𝜆1𝜆1\frac{\lambda-1}{\lambda+1}divide start_ARG italic_λ - 1 end_ARG start_ARG italic_λ + 1 end_ARG이다. 보다 일반적으로, 실수 라인을 복소 평면 내의 단위 원에 매핑하는 Cayley transform λiλ+i𝜆i𝜆i\frac{\lambda-\mathrm{i}}{\lambda+\mathrm{i}}divide start_ARG italic_λ - roman_i end_ARG start_ARG italic_λ + roman_i end_ARG와 같은 복소 함수를 사용할 수 있다. 121121121Cayley transform is a particular case of a Möbius transformation. When applied to the Laplacian (a positive-semindefinite matrix), it maps its non-negative eigenvalues to the complex half-circle. Levie et al. (2018) used spectral filters expressed as Cayley polynomials, real rational functions with complex coefficients,

p^(λ)=Re(l=0rαl(λiλ+i)l).^𝑝𝜆Resuperscriptsubscript𝑙0𝑟subscript𝛼𝑙superscript𝜆i𝜆i𝑙\hat{p}(\lambda)=\mathrm{Re}\left(\sum_{l=0}^{r}\alpha_{l}\left(\frac{\lambda-\mathrm{i}}{\lambda+\mathrm{i}}\right)^{l}\right).over^ start_ARG italic_p end_ARG ( italic_λ ) = roman_Re ( ∑ start_POSTSUBSCRIPT italic_l = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_r end_POSTSUPERSCRIPT italic_α start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT ( divide start_ARG italic_λ - roman_i end_ARG start_ARG italic_λ + roman_i end_ARG ) start_POSTSUPERSCRIPT italic_l end_POSTSUPERSCRIPT ) .

행렬들에 적용될 때, 상기 케일리 다항식의 계산은 행렬 역산을 필요로 하고,

p^(𝚫)=Re(l=0rαl(𝚫i𝐈)l(𝚫+i𝐈)l),^𝑝𝚫Resuperscriptsubscript𝑙0𝑟subscript𝛼𝑙superscript𝚫i𝐈𝑙superscript𝚫i𝐈𝑙\hat{p}(\bm{\Delta})=\mathrm{Re}\left(\sum_{l=0}^{r}\alpha_{l}(\bm{\Delta}-\mathrm{i}\mathbf{I})^{l}(\bm{\Delta}+\mathrm{i}\mathbf{I})^{-l}\right),over^ start_ARG italic_p end_ARG ( bold_Δ ) = roman_Re ( ∑ start_POSTSUBSCRIPT italic_l = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_r end_POSTSUPERSCRIPT italic_α start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT ( bold_Δ - roman_i bold_I ) start_POSTSUPERSCRIPT italic_l end_POSTSUPERSCRIPT ( bold_Δ + roman_i bold_I ) start_POSTSUPERSCRIPT - italic_l end_POSTSUPERSCRIPT ) ,

이는 선형 복잡도로 대략적으로 수행될 수 있다. 유리 필터는 다항식 필터와 달리 로컬 지원이 없지만 지수 감쇠 (Levie et al., 2018)를 갖는다. 푸리에 변환의 직접 계산과 비교하여 중요한 차이점은 다항식 및 유리 필터가 기본 그래프 또는 메쉬의 근사 등척성 변형 하에서 안정하다는 것이다. 이러한 종류의 다양한 결과가 예를 들어 Levie et al. (2018, 2019); Gama et al. (2020); Kenlay et al. (2021)로 나타났다.

Meshes as operators and Functional maps

기능 지도의 패러다임은 메쉬의 생각을 operators으로 제안한다. 우리가 보여주듯이, 이것은 메쉬의 추가 구조를 이용하는 보다 흥미로운 유형의 불변성을 얻을 수 있게 한다. 논의의 목적을 위해, 메쉬 𝒯𝒯\mathcal{T}caligraphic_T가 좌표 𝐗𝐗\mathbf{X}bold_X를 갖는 임베디드 노드에 구축되어 있다고 가정하자. 라플라시안과 같은 고유 연산자를 구성하면 메쉬의 구조를 완전히 인코딩하고 메쉬를 복구할 수 있음을 알 수 있다(Zeng et al. (2012)에서 볼 수 있듯이 등척성 임베딩까지). 이는 일부 다른 연산자(예를 들어 Boscaini et al. (2015); Corman et al. (2017); Chern et al. (2018) 참조)에 대해서도 마찬가지이므로, 일반적인 연산자, 즉 n×n𝑛𝑛n\times nitalic_n × italic_n 행렬 𝐐(𝒯,𝐗)𝐐𝒯𝐗\mathbf{Q}(\mathcal{T},\mathbf{X})bold_Q ( caligraphic_T , bold_X )를 우리의 메쉬의 표현으로 상정하기로 한다.

이 견해에서, f(𝐗,𝒯)𝑓𝐗𝒯f(\mathbf{X},\mathcal{T})italic_f ( bold_X , caligraphic_T ) 형식의 학습 함수들의 섹션4.1에 대한 논의는 f(𝐐)𝑓𝐐f(\mathbf{Q})italic_f ( bold_Q ) 형식의 학습 함수들로서 다시 표현될 수 있다. 그래프들 및 세트들과 유사하게, 메쉬들의 노드들은 또한 정준 순서화(canonical ordering)를 갖지 않으며, 즉 메쉬들 상의 함수들은 순열 불변 또는 등분산 조건들을 만족시켜야 하고,

f(𝐐)𝑓𝐐\displaystyle f(\mathbf{Q})italic_f ( bold_Q ) =\displaystyle== f(𝐏𝐐𝐏)𝑓superscript𝐏𝐐𝐏top\displaystyle f(\mathbf{P}\mathbf{Q}\mathbf{P}^{\top})italic_f ( bold_PQP start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT )
𝐏𝐅(𝐐)𝐏𝐅𝐐\displaystyle\mathbf{P}\mathbf{F}(\mathbf{Q})bold_PF ( bold_Q ) =\displaystyle== 𝐅(𝐏𝐐𝐏)𝐅superscript𝐏𝐐𝐏top\displaystyle\mathbf{F}(\mathbf{P}\mathbf{Q}\mathbf{P}^{\top})bold_F ( bold_PQP start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT )

임의의 순열 행렬 𝐏𝐏\mathbf{P}bold_P에 대해. 그러나 일반적인 그래프에 비해 우리는 이제 더 많은 구조를 가지고 있다: 우리는 우리의 메쉬가 일부 기본 연속 표면 ΩΩ\Omegaroman_Ω의 이산화로부터 발생한다고 가정할 수 있다. 따라서, nsuperscript𝑛n^{\prime}italic_n start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT 노드와 좌표 𝐗superscript𝐗\mathbf{X}^{\prime}bold_X start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT𝒯𝒯\mathcal{T}caligraphic_T와 동일한 오브젝트 ΩΩ\Omegaroman_Ω를 나타내는 다른 메쉬 𝒯=(𝒱,,)superscript𝒯superscript𝒱superscriptsuperscript\mathcal{T}^{\prime}=(\mathcal{V}^{\prime},\mathcal{E}^{\prime},\mathcal{F}^{\prime})caligraphic_T start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = ( caligraphic_V start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT , caligraphic_E start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT , caligraphic_F start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT )를 가질 수 있다. 중요하게는, 메시들 𝒯𝒯\mathcal{T}caligraphic_T𝒯superscript𝒯\mathcal{T}^{\prime}caligraphic_T start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT는 상이한 연결 구조를 가질 수 있고 심지어 상이한 수의 노드들(nnsuperscript𝑛𝑛n^{\prime}\neq nitalic_n start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ≠ italic_n)을 가질 수 있다. 따라서 우리는 이러한 메쉬를 단순한 노드의 재정렬만으로 동형 그래프로 생각할 수 없으며, 순열 행렬 𝐏𝐏\mathbf{P}bold_P를 그들 사이의 대응으로 간주할 수 없다.

Functional maps were introduced by Ovsjanikov et al. (2012) as a generalisation of the notion of correspondence to such settings, replacing the correspondence between points on two domains (a map η:ΩΩ:𝜂ΩsuperscriptΩ\eta:\Omega\rightarrow\Omega^{\prime}italic_η : roman_Ω → roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT) with correspondence between functions (a map 𝐂:𝒳(Ω)𝒳(Ω):𝐂𝒳Ω𝒳superscriptΩ\mathbf{C}:\mathcal{X}(\Omega)\rightarrow\mathcal{X}(\Omega^{\prime})bold_C : caligraphic_X ( roman_Ω ) → caligraphic_X ( roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ), see Figure 13). A functional map is a linear operator 𝐂𝐂\mathbf{C}bold_C, represented as a matrix n×nsuperscript𝑛𝑛n^{\prime}\times nitalic_n start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT × italic_n, establishing correspondence between signals 𝐱superscript𝐱\mathbf{x}^{\prime}bold_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT and 𝐱𝐱\mathbf{x}bold_x on the respective domains as

𝐱=𝐂𝐱.superscript𝐱𝐂𝐱\mathbf{x}^{\prime}=\mathbf{C}\mathbf{x}.bold_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = bold_Cx .

Rustamov et al. (2013) showed that in order to guarantee area-preserving mapping, the functional map must be orthogonal, 𝐂𝐂=𝐈superscript𝐂top𝐂𝐈\mathbf{C}^{\top}\mathbf{C}=\mathbf{I}bold_C start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT bold_C = bold_I, i.e., be an element of the orthogonal group 𝐂O(n)𝐂O𝑛\mathbf{C}\in\mathrm{O}(n)bold_C ∈ roman_O ( italic_n ). In this case, we can invert the map using 𝐂1=𝐂superscript𝐂1superscript𝐂top\mathbf{C}^{-1}=\mathbf{C}^{\top}bold_C start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT = bold_C start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT.

Refer to caption
Refer to caption
Figure 13:Pointwise map (left) vs functional map (right).

상기 기능 맵은 또한 메쉬들의 오퍼레이터 표현 사이의 관계를 확립하고,

𝐐=𝐂𝐐𝐂,𝐐=𝐂𝐐𝐂,formulae-sequencesuperscript𝐐superscript𝐂𝐐𝐂top𝐐superscript𝐂topsuperscript𝐐𝐂\mathbf{Q}^{\prime}=\mathbf{C}\mathbf{Q}\mathbf{C}^{\top},\quad\quad\mathbf{Q}=\mathbf{C}^{\top}\mathbf{Q}^{\prime}\mathbf{C},bold_Q start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = bold_CQC start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT , bold_Q = bold_C start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT bold_Q start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT bold_C ,

우리는 다음과 같이 해석할 수 있다 : 주어진 연산자 표현 𝐐𝐐\mathbf{Q}bold_Q의 신호를 먼저 𝒯superscript𝒯\mathcal{T}^{\prime}caligraphic_T start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT의 신호를 𝒯𝒯\mathcal{T}caligraphic_T로 매핑하고, 연산자 𝐐𝐐\mathbf{Q}bold_Q를 적용한 다음, 다시 𝒯superscript𝒯\mathcal{T}^{\prime}caligraphic_T start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT로 매핑함으로써 𝒯superscript𝒯\mathcal{T}^{\prime}caligraphic_T start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT의 표현 𝐐superscript𝐐\mathbf{Q}^{\prime}bold_Q start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT를 구성할 수 있다. 𝐂𝐂\mathbf{C}bold_C)124124124Note that we read these operations right-to-left. remeshing invariant (또는 equivariant) functions on mesh를 만족하며,

f(𝐐)𝑓𝐐\displaystyle f(\mathbf{Q})italic_f ( bold_Q ) =\displaystyle== f(𝐂𝐐𝐂)=f(𝐐)𝑓superscript𝐂𝐐𝐂top𝑓superscript𝐐\displaystyle f(\mathbf{C}\mathbf{Q}\mathbf{C}^{\top})=f(\mathbf{Q}^{\prime})italic_f ( bold_CQC start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT ) = italic_f ( bold_Q start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT )
𝐂𝐅(𝐐)𝐂𝐅𝐐\displaystyle\mathbf{C}\mathbf{F}(\mathbf{Q})bold_CF ( bold_Q ) =\displaystyle== 𝐅(𝐂𝐐𝐂)=𝐅(𝐐)𝐅superscript𝐂𝐐𝐂top𝐅superscript𝐐\displaystyle\mathbf{F}(\mathbf{C}\mathbf{Q}\mathbf{C}^{\top})=\mathbf{F}(\mathbf{Q}^{\prime})bold_F ( bold_CQC start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT ) = bold_F ( bold_Q start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT )

for any 𝐂O(n)𝐂O𝑛\mathbf{C}\in\mathrm{O}(n)bold_C ∈ roman_O ( italic_n ). 순열 불변성과 등분성의 이전 설정이 특정 경우임을 쉽게 알 수 있으며, 125125125125이는 순열 행렬의 직교성으로부터 다음과 같다. 𝐏𝐏=𝐈superscript𝐏top𝐏𝐈\mathbf{P}^{\top}\mathbf{P}=\mathbf{I}bold_P start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT bold_P = bold_I 은 노드의 순서만 바뀌는 사소한 리메싱으로 생각할 수 있다.

Wang et al. (2019a)는 연산자 𝐐=𝐕𝚲𝐕𝐐𝐕𝚲superscript𝐕top\mathbf{Q}=\mathbf{V}\bm{\Lambda}\mathbf{V}^{\top}bold_Q = bold_V bold_Λ bold_V start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT의 eigendecomposition이 주어지면, 임의의 remeshing 불변(또는 equivariant) 함수는 f(𝐐)=f(𝚲)𝑓𝐐𝑓𝚲f(\mathbf{Q})=f(\bm{\Lambda})italic_f ( bold_Q ) = italic_f ( bold_Λ )𝐅(𝐐)=𝐕𝐅(𝚲)𝐅𝐐𝐕𝐅𝚲\mathbf{F}(\mathbf{Q})=\mathbf{V}\mathbf{F}(\bm{\Lambda})bold_F ( bold_Q ) = bold_VF ( bold_Λ )로 표현될 수 있음을 보여주거나, 다시 말해 remeshing 불변 함수 involve only the spectrum of 𝐐𝐐\mathbf{Q}bold_Q로 표현될 수 있음을 보여주었다. 실제로 라플라시안 고유값의 함수는 표면 이산화 및 섭동에 강인하다는 것이 실제로 입증되어 컴퓨터 그래픽에서 라플라시안 기반 스펙트럼 구성의 인기를 설명할 뿐만 아니라 그래프 (Defferrard et al., 2016; Levie et al., 2018)에 대한 딥 러닝에서도 입증되었다. 이 결과는 일반적인 연산자 𝐐𝐐\mathbf{Q}bold_Q를 참조하기 때문에 유비쿼터스 라플라시안 외에 여러 선택이 가능하다 – 주목할 만한 예로는 Dirac (Liu et al., 2017; Kostrikov et al., 2018) 또는 Steklov (Wang et al., 2018) 연산자와 학습 가능한 파라메트릭 연산자 (Wang et al., 2019a)가 있다.

5 Geometric Deep Learning Models

기하학적 딥 러닝 청사진의 다양한 인스턴스화(도메인, 대칭 그룹 및 지역 개념의 다양한 선택에 대해)를 철저히 연구한 후, 이러한 처방을 시행하는 것이 가장 인기 있는 딥 러닝 아키텍처 중 일부를 산출할 수 있는 방법에 대해 논의할 준비가 되어 있습니다.

우리의 박람회는 다시 한번 일반성의 엄격한 순서가 아닐 것이다. 우리는 처음에 구현이 우리의 앞선 논의로부터 거의 직접 따르는 세 가지 아키텍처, 즉 컨볼루션 신경망(CNN), 그룹-등변 CNN 및 그래프 신경망(GNN)을 다룬다.

그런 다음 그래프 구조가 미리 알려져 있지 않은 경우(즉, 정렬되지 않은 집합)에 대한 GNN의 변형을 자세히 살펴보고 토론을 통해 인기 있는 딥셋 및 트랜스포머 아키텍처를 GNN의 인스턴스로 설명한다.

기하 그래프와 메쉬에 대한 논의에 이어, 먼저 명시적인 기하 대칭을 GNN 계산에 도입하는 등분산 메시지 전달 네트워크를 설명한다. 그런 다음, 지오데식 및 게이지 대칭 이론이 딥 러닝 내에서 구체화될 수 있는 방법을 보여줌으로써, 고유 메시 CNN(Geodesic CNN, MoNet 및 게이지-equivariant mesh CNN 포함)의 패밀리를 복구한다.

마지막으로 temporal 각도에서 그리드 도메인을 돌아봅니다. 이 논의는 우리를 순환 신경망(RNN)으로 이끌 것이다. 우리는 RNN이 시간 격자에 대해 번역 불변인 방식을 보여주지만 시간 와핑 변환에 대한 안정성을 연구할 것이다. 이 특성은 장거리 종속성을 적절하게 처리하는데 매우 바람직하며, 그러한 변환들에 대한 클래스 불변성을 강제하는 것은 (LSTM 또는 GRU와 같은 인기 있는 RNN 모델들을 포함하는) 게이티드 RNN들의 클래스를 정확하게 산출한다.

위의 캔버스가 작성 시 사용되는 대부분의 주요 딥 러닝 아키텍처를 활용하기를 희망하지만, 우리는 새로운 신경망 인스턴스가 매일 제안된다는 것을 잘 알고 있다. 따라서, 가능한 모든 아키텍처를 포괄하는 것을 목표로 하기보다는 다음 섹션이 충분히 예시적이어서 독자가 불변과 대칭의 렌즈를 사용하여 미래의 기하 딥러닝 개발을 쉽게 분류할 수 있기를 바란다.

5.1 Convolutional Neural Networks

Convolutional Neural Networks are perhaps the earliest and most well known example of deep learning architectures following the blueprint of Geometric Deep Learning outlined in Section 3.5. In Section 4.2 we have fully characterised the class of linear and local translation equivariant operators, given by convolutions 𝐂(𝜽)𝐱=𝐱𝜽𝐂𝜽𝐱𝐱𝜽{\bf C(\bm{\theta})}{\bf x}={\bf x}\star\bm{\theta}bold_C ( bold_italic_θ ) bold_x = bold_x ⋆ bold_italic_θ with a localised filter 𝜽𝜽\bm{\theta}bold_italic_θ126126126Recall, 𝐂(𝜽)𝐂𝜽{\bf C}(\bm{\theta})bold_C ( bold_italic_θ ) is a circulant matrix with parameters 𝜽𝜽\bm{\theta}bold_italic_θ.. Let us first focus on scalar-valued (‘single-channel’ or ‘grayscale’) discretised images, where the domain is the grid Ω=[H]×[W]Ωdelimited-[]𝐻delimited-[]𝑊\Omega=[H]\times[W]roman_Ω = [ italic_H ] × [ italic_W ] with 𝐮=(u1,u2)𝐮subscript𝑢1subscript𝑢2\mathbf{u}=(u_{1},u_{2})bold_u = ( italic_u start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_u start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) and 𝐱𝒳(Ω,)𝐱𝒳Ω{\bf x}\in{\mathcal{X}}(\Omega,\mathbb{R})bold_x ∈ caligraphic_X ( roman_Ω , blackboard_R ).

Any convolution with a compactly supported filter of size Hf×Wfsuperscript𝐻𝑓superscript𝑊𝑓H^{f}\times W^{f}italic_H start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT × italic_W start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT can be written as a linear combination of generators 𝜽1,1,,𝜽Hf,Wfsubscript𝜽11subscript𝜽superscript𝐻𝑓superscript𝑊𝑓\bm{\theta}_{1,1},\dots,\bm{\theta}_{{H^{f},W^{f}}}bold_italic_θ start_POSTSUBSCRIPT 1 , 1 end_POSTSUBSCRIPT , … , bold_italic_θ start_POSTSUBSCRIPT italic_H start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT , italic_W start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT end_POSTSUBSCRIPT, given for example by the unit peaks 𝜽vw(u1,u2)=δ(u1v,u2w)subscript𝜽𝑣𝑤subscript𝑢1subscript𝑢2𝛿subscript𝑢1𝑣subscript𝑢2𝑤\bm{\theta}_{vw}(u_{1},u_{2})=\delta(u_{1}-v,u_{2}-w)bold_italic_θ start_POSTSUBSCRIPT italic_v italic_w end_POSTSUBSCRIPT ( italic_u start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_u start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) = italic_δ ( italic_u start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT - italic_v , italic_u start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT - italic_w ). Any local linear equivariant map is thus expressible as127127127Note that we usually imagine 𝐱𝐱\mathbf{x}bold_x and 𝜽vwsubscript𝜽𝑣𝑤\bm{\theta}_{vw}bold_italic_θ start_POSTSUBSCRIPT italic_v italic_w end_POSTSUBSCRIPT as 2D matrices, but in this equation, both 𝐱𝐱\mathbf{x}bold_x and 𝜽vwsubscript𝜽𝑣𝑤\bm{\theta}_{vw}bold_italic_θ start_POSTSUBSCRIPT italic_v italic_w end_POSTSUBSCRIPT have their two coordinate dimensions flattened into one—making 𝐱𝐱\mathbf{x}bold_x a vector, and 𝐂(𝜽vw)𝐂subscript𝜽𝑣𝑤\mathbf{C}(\bm{\theta}_{vw})bold_C ( bold_italic_θ start_POSTSUBSCRIPT italic_v italic_w end_POSTSUBSCRIPT ) a matrix.

𝐅(𝐱)=v=1Hfw=1Wfαvw𝐂(𝜽vw)𝐱,𝐅𝐱superscriptsubscript𝑣1superscript𝐻𝑓superscriptsubscript𝑤1superscript𝑊𝑓subscript𝛼𝑣𝑤𝐂subscript𝜽𝑣𝑤𝐱\mathbf{F}(\mathbf{x})=\sum_{v=1}^{H^{f}}\sum_{w=1}^{W^{f}}\alpha_{vw}\mathbf{C}(\bm{\theta}_{vw})\mathbf{x}~{},bold_F ( bold_x ) = ∑ start_POSTSUBSCRIPT italic_v = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_H start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT end_POSTSUPERSCRIPT ∑ start_POSTSUBSCRIPT italic_w = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_W start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT end_POSTSUPERSCRIPT italic_α start_POSTSUBSCRIPT italic_v italic_w end_POSTSUBSCRIPT bold_C ( bold_italic_θ start_POSTSUBSCRIPT italic_v italic_w end_POSTSUBSCRIPT ) bold_x , (26)

이는, 좌표에서, 친숙한 2D 컨볼루션에 대응한다(도 14 for a overview):

Refer to caption
도 14:The process of convolving a image 𝐱𝐱\mathbf{x}bold_x with a filter 𝐂(𝜽)𝐂𝜽\mathbf{C}(\bm{\theta})bold_C ( bold_italic_θ ). 필터 파라미터 𝜽𝜽\bm{\theta}bold_italic_θ는 생성기 𝜽vwsubscript𝜽𝑣𝑤\bm{\theta}_{vw}bold_italic_θ start_POSTSUBSCRIPT italic_v italic_w end_POSTSUBSCRIPT의 선형 조합으로 표현될 수 있다.
𝐅(𝐱)uv=a=1Hfb=1Wfαabxu+a,v+b.𝐅subscript𝐱𝑢𝑣superscriptsubscript𝑎1superscript𝐻𝑓superscriptsubscript𝑏1superscript𝑊𝑓subscript𝛼𝑎𝑏subscript𝑥𝑢𝑎𝑣𝑏\mathbf{F}(\mathbf{x})_{uv}=\sum_{a=1}^{H^{f}}\sum_{b=1}^{W^{f}}{\alpha}_{ab}x_{u+a,v+b}~{}.bold_F ( bold_x ) start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT = ∑ start_POSTSUBSCRIPT italic_a = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_H start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT end_POSTSUPERSCRIPT ∑ start_POSTSUBSCRIPT italic_b = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_W start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT end_POSTSUPERSCRIPT italic_α start_POSTSUBSCRIPT italic_a italic_b end_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT italic_u + italic_a , italic_v + italic_b end_POSTSUBSCRIPT . (27)

Other choices of the basis 𝜽vwsubscript𝜽𝑣𝑤\bm{\theta}_{vw}bold_italic_θ start_POSTSUBSCRIPT italic_v italic_w end_POSTSUBSCRIPT are also possible and will yield equivalent operations (for potentially different choices of αvwsubscript𝛼𝑣𝑤\alpha_{vw}italic_α start_POSTSUBSCRIPT italic_v italic_w end_POSTSUBSCRIPT). A popular example are directional derivatives: 𝜽vw(u1,u2)=δ(u1,u2)δ(u1v,u2w),(v,w)(0,0)formulae-sequencesubscript𝜽𝑣𝑤subscript𝑢1subscript𝑢2𝛿subscript𝑢1subscript𝑢2𝛿subscript𝑢1𝑣subscript𝑢2𝑤𝑣𝑤00\bm{\theta}_{vw}(u_{1},u_{2})=\delta(u_{1},u_{2})-\delta(u_{1}-v,u_{2}-w),(v,w)\neq(0,0)bold_italic_θ start_POSTSUBSCRIPT italic_v italic_w end_POSTSUBSCRIPT ( italic_u start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_u start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) = italic_δ ( italic_u start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_u start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) - italic_δ ( italic_u start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT - italic_v , italic_u start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT - italic_w ) , ( italic_v , italic_w ) ≠ ( 0 , 0 ) taken together with the local average 𝜽0(u1,u2)=1HfWfsubscript𝜽0subscript𝑢1subscript𝑢21subscript𝐻𝑓subscript𝑊𝑓\bm{\theta}_{0}(u_{1},u_{2})=\frac{1}{H_{f}W_{f}}bold_italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ( italic_u start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_u start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) = divide start_ARG 1 end_ARG start_ARG italic_H start_POSTSUBSCRIPT italic_f end_POSTSUBSCRIPT italic_W start_POSTSUBSCRIPT italic_f end_POSTSUBSCRIPT end_ARG. In fact, directional derivatives can be considered a grid-specific analogue of diffusion processes on graphs, which we recover if we assume each pixel to be a node connected to its immediate neighbouring pixels in the grid.

스칼라 입력 채널이 다수의 채널들(예를 들어, RGB 컬러들, 또는 더 일반적으로 임의의 수의 특징 맵들)로 대체될 때, 컨볼루션 필터는 입력 특징들의 임의의 선형 조합들을 출력 특징 맵들로 표현하는 컨볼루션 텐서이 된다. 좌표에서, 이는 다음과 같이 표현될 수 있다.

𝐅(𝐱)uvj=a=1Hfb=1Wfc=1Mαjabcxu+a,v+b,c,j[N],formulae-sequence𝐅subscript𝐱𝑢𝑣𝑗superscriptsubscript𝑎1superscript𝐻𝑓superscriptsubscript𝑏1superscript𝑊𝑓superscriptsubscript𝑐1𝑀subscript𝛼𝑗𝑎𝑏𝑐subscript𝑥𝑢𝑎𝑣𝑏𝑐𝑗delimited-[]𝑁\mathbf{F}(\mathbf{x})_{uvj}=\sum_{a=1}^{H^{f}}\sum_{b=1}^{W^{f}}\sum_{c=1}^{M}{\alpha}_{jabc}x_{u+a,v+b,c}~{},~{}j\in[N]~{},bold_F ( bold_x ) start_POSTSUBSCRIPT italic_u italic_v italic_j end_POSTSUBSCRIPT = ∑ start_POSTSUBSCRIPT italic_a = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_H start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT end_POSTSUPERSCRIPT ∑ start_POSTSUBSCRIPT italic_b = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_W start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT end_POSTSUPERSCRIPT ∑ start_POSTSUBSCRIPT italic_c = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT italic_α start_POSTSUBSCRIPT italic_j italic_a italic_b italic_c end_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT italic_u + italic_a , italic_v + italic_b , italic_c end_POSTSUBSCRIPT , italic_j ∈ [ italic_N ] , (28)

여기서 M𝑀Mitalic_MN𝑁Nitalic_N는 각각 입출력 채널의 수이다. 이 기본 작업은 다음 섹션에서 보여주겠지만 컴퓨터 비전, 신호 처리 및 그 이상의 많은 영역에 걸쳐 심오한 영향을 미친 광범위한 종류의 신경망 아키텍처를 포함한다. 여기에서 CNN의 무수히 많은 가능한 아키텍처 변형을 해부하기보다는 광범위한 사용을 가능하게 한 필수 혁신 중 일부에 초점을 맞추는 것을 선호한다.

Efficient multiscale computation

일반적인 대칭을 위한 GDL 템플릿에서 논의된 바와 같이, 컨볼루션 연산자 𝐅𝐅\mathbf{F}bold_F에서 변환 불변 특징을 추출하는 것은 비선형 단계를 필요로 한다. 128128128[Uncaptioned image]
ReLU, often considered a ‘modern’ architectural choice, was already used in the Neocognitron (Fukushima and Miyake, 1982). Rectification is equivalent to the principle of demodulation, which is fundamental in electrical engineering as the basis for many transmission protocols, such as FM radio; and also has a prominent role in models for neuronal activity.
Convolutional features is processed through non-linear activation function σ𝜎\sigmaitalic_σ, acting element-wise on the input—즉, σ:𝒳(Ω)𝒳(Ω):𝜎𝒳Ω𝒳Ω\sigma:{\mathcal{X}}(\Omega)\to{\mathcal{X}}(\Omega)italic_σ : caligraphic_X ( roman_Ω ) → caligraphic_X ( roman_Ω ), as σ(𝐱)(u)=σ(𝐱(u))𝜎𝐱𝑢𝜎𝐱𝑢\sigma(\mathbf{x})(u)=\sigma(\mathbf{x}(u))italic_σ ( bold_x ) ( italic_u ) = italic_σ ( bold_x ( italic_u ) ). 아마도 쓰기 시에 가장 인기 있는 예는 Rectified Linear Unit(ReLU): σ(x)=max(x,0)𝜎𝑥𝑥0\sigma(x)=\max(x,0)italic_σ ( italic_x ) = roman_max ( italic_x , 0 )이다. 이 비선형성은 효과적으로 rectify 신호를 수정하고, 에너지를 더 낮은 주파수로 푸시하고, 구성을 반복함으로써 규모에 걸쳐 고차 상호 작용의 계산을 가능하게 한다.

이미 Fukushima and Miyake (1982)LeCun et al. (1998)의 초기 작업에서 CNN 및 유사한 아키텍처는 멀티스케일 구조를 가졌으며, 각 컨볼루션 레이어(28) 이후에 그리드 조대화 𝐏:𝒳(Ω)𝒳(Ω):𝐏𝒳Ω𝒳superscriptΩ\mathbf{P}:{\mathcal{X}}(\Omega)\to{\mathcal{X}}(\Omega^{\prime})bold_P : caligraphic_X ( roman_Ω ) → caligraphic_X ( roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT )를 수행하고, 그리드 ΩsuperscriptΩ\Omega^{\prime}roman_Ω start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPTΩΩ\Omegaroman_Ω보다 조대 해상도를 갖는다. 이는 수용 필드를 효과적으로 증가시키면서도 스케일당 일정한 수의 파라미터를 유지하는 멀티스케일 필터를 가능하게 한다. 여러 신호 조대화 전략 𝐏𝐏\mathbf{P}bold_P(pooling이라고 함)가 사용될 수 있으며, 가장 일반적인 것은 저역 통과 안티 앨리어싱 필터(예: 로컬 평균)를 적용한 후 그리드 다운샘플링 또는 비선형 맥스-풀링이다.

요약하면, '바닐라' CNN 레이어는 우리의 기하 딥러닝 청사진에 이미 소개된 기본 객체들의 구성으로 표현될 수 있다:

𝐡=𝐏(σ(𝐅(𝐱))),𝐡𝐏𝜎𝐅𝐱\mathbf{h}=\mathbf{P}(\sigma(\mathbf{F}(\mathbf{x})))~{},bold_h = bold_P ( italic_σ ( bold_F ( bold_x ) ) ) , (29)

i.e. 등분산 선형 계층 𝐅𝐅\mathbf{F}bold_F, 조대화 연산 𝐏𝐏\mathbf{P}bold_P, 및 비선형 σ𝜎\sigmaitalic_σ. 또한 번역 불변 global pooling operations within CNNs를 수행할 수도 있다. 직관적으로, 이는 각 픽셀을 포함하는데, 이는 여러 컨볼루션 후에 patch centered around it—proposing the final representation of the image129129129CNNs which only consist of the operations mentioned in this paragraph are often dubbed “all-convolutional”. In contrast, many CNNs flatten the image across the spatial axes and pass them to an MLP classifier, once sufficient equivariant and coarsening layers have been applied. This loses translation invariance., and the ultimate choice is guided by form of aggregation of these proposals. 여기서 인기 있는 선택은 이미지 크기 (Springenberg et al., 2014)에 관계없이 출력이 유사한 크기를 유지하기 때문에 평균 함수이다.

이 CNN 청사진에 이어지는 두드러진 예(그 중 일부는 다음에 논의할 것임)가 그림 15에 표시된다.

Refer to caption
Refer to caption
Refer to caption
Refer to caption
그림 15:CNN 아키텍처의 두드러진 예. Top-to-bottom: LeNet (LeCun et al., 1998), AlexNet (Krizhevsky et al., 2012), ResNet (He et al., 2016) and U-Net (Ronneberger et al., 2015). PlotNeuralNet 패키지 (Iqbal, 2018)를 사용하여 그립니다.

Deep and Residual Networks

따라서 가장 간단한 형태의 CNN 아키텍처는 하이퍼파라미터 (Hkf,Wkf,Nk,pk)kKsubscriptsubscriptsuperscript𝐻𝑓𝑘subscriptsuperscript𝑊𝑓𝑘subscript𝑁𝑘subscript𝑝𝑘𝑘𝐾(H^{f}_{k},W^{f}_{k},N_{k},p_{k})_{k\leq K}( italic_H start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT , italic_W start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT , italic_N start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT , italic_p start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ) start_POSTSUBSCRIPT italic_k ≤ italic_K end_POSTSUBSCRIPT, Mk+1=Nksubscript𝑀𝑘1subscript𝑁𝑘M_{k+1}=N_{k}italic_M start_POSTSUBSCRIPT italic_k + 1 end_POSTSUBSCRIPT = italic_N start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPTpk=0,1subscript𝑝𝑘01p_{k}=0,1italic_p start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT = 0 , 1가 그리드 조대화 수행 여부를 나타낸다. 이러한 모든 하이퍼파라미터가 실제로 중요하지만, 특히 중요한 질문은 CNN 아키텍처에서 깊이 K𝐾Kitalic_K의 역할과, 특히 필터 크기와 관련하여 이러한 키 하이퍼파라미터를 선택하는 데 수반되는 근본적인 트레이드오프가 무엇인지를 이해하는 것이다(Hkf,Wkfsuperscriptsubscript𝐻𝑘𝑓superscriptsubscript𝑊𝑘𝑓H_{k}^{f},W_{k}^{f}italic_H start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT , italic_W start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT).

이 질문에 대한 엄밀한 대답은 여전히 파악하기 어렵지만, 최근 몇 년 동안 수집된 경험적 증거의 증가는 더 깊은(큰 K𝐾Kitalic_K) 그러나 더 얇은(작은 (Hkf,Wkf)subscriptsuperscript𝐻𝑓𝑘subscriptsuperscript𝑊𝑓𝑘(H^{f}_{k},W^{f}_{k})( italic_H start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT , italic_W start_POSTSUPERSCRIPT italic_f end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT )) 모델 130130130 Historically, ResNet models are predated by highway networks (Srivastava et al., 2015), which allow for more general gating mechanisms to control the residual information flow.을 향한 유리한 트레이드오프를 제안한다. 이러한 맥락에서, He et al. (2016)에 의한 중요한 통찰은 각 컨볼루션 레이어를 재파라메타라이즈하여 일반적인 비선형 변환이 아닌 이전 기능의 perturbation을 모델링하는 것이었다:

𝐡=𝐏(𝐱+σ(𝐅(𝐱))).𝐡𝐏𝐱𝜎𝐅𝐱\mathbf{h}=\mathbf{P}\left(\mathbf{x}+\sigma(\mathbf{F}(\mathbf{x}))\right)~{}.bold_h = bold_P ( bold_x + italic_σ ( bold_F ( bold_x ) ) ) . (30)

결과 residual 네트워크는 이전 공식에 비해 몇 가지 주요 이점을 제공합니다. 본질적으로, 잔차 파라미터는 딥 네트워크가 기본 연속 동적 시스템의 이산화라는 견해와 일치하며, 상미분 방정식(ODE)131131131131이 경우 ResNet은 ODE: 𝐱˙=σ(𝐅(𝐱))˙𝐱𝜎𝐅𝐱\dot{\mathbf{x}}=\sigma(\mathbf{F}(\mathbf{x}))over˙ start_ARG bold_x end_ARG = italic_σ ( bold_F ( bold_x ) )의 Forward Euler 이산화를 수행하고 있다. 결정적으로, 속도를 모델링하여 동적 시스템을 학습하는 것은 위치를 직접 학습하는 것보다 훨씬 쉬운 것으로 밝혀졌다. 우리의 학습 설정에서 이것은 더 유리한 기하학을 가진 최적화 지형으로 변환되어 이전보다 훨씬 더 깊은 아키텍처를 훈련할 수 있는 능력으로 이어진다. 향후 연구에서 논의될 바와 같이, 심층 신경망을 사용한 학습은 비-볼록 최적화 문제를 정의하며, 이는 특정 단순화 체제 하에서 구배-하강 방법을 사용하여 효율적으로 해결될 수 있다. ResNet 매개변수의 주요 이점은 간단한 시나리오 (Hardt and Ma, 2016)에서 엄격하게 분석되었으며 이론적 조사의 활성 영역으로 남아 있다. 마지막으로, Neural ODEs (Chen et al., 2018)는 ODE 𝐱˙=σ(𝐅(𝐱))˙𝐱𝜎𝐅𝐱\dot{\mathbf{x}}=\sigma(\mathbf{F}(\mathbf{x}))over˙ start_ARG bold_x end_ARG = italic_σ ( bold_F ( bold_x ) )의 파라미터를 직접 학습하고 표준 수치 적분에 의존함으로써 ODE와의 유추를 더욱 밀어붙이는 최근의 인기 있는 아키텍처이다.

Normalisation

CNN의 경험적 성능을 크게 향상시킨 또 다른 중요한 알고리즘 혁신은 normalisation의 개념이다. 신경 활동의 초기 모델에서 뉴런은 지역적인 '이득 제어'의 일부 형태를 수행하는 것으로 가정되었으며, 여기서 층 계수 𝐱ksubscript𝐱𝑘\mathbf{x}_{k}bold_x start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT𝐱~k=σk1(𝐱kμk)subscript~𝐱𝑘direct-productsuperscriptsubscript𝜎𝑘1subscript𝐱𝑘subscript𝜇𝑘\mathbf{\tilde{x}}_{k}=\sigma_{k}^{-1}\odot(\mathbf{x}_{k}-\mu_{k})over~ start_ARG bold_x end_ARG start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT = italic_σ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ⊙ ( bold_x start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT - italic_μ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT )로 대체된다. 여기서, μksubscript𝜇𝑘\mu_{k}italic_μ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPTσksubscript𝜎𝑘\sigma_{k}italic_σ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT는 각각 𝐱ksubscript𝐱𝑘\mathbf{x}_{k}bold_x start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT의 1차 및 2차 모멘트 정보를 부호화한다. 또한, 그것들은 전역적으로 또는 국부적으로 계산될 수 있다.

딥 러닝의 맥락에서, 이 원리는 batch normalisation layer (Ioffe and Szegedy, 2015)132132132We note that normalising activations of neural networks has seen attention even before the advent of batch normalisation. See, e.g., Lyu and Simoncelli (2008).을 통해 널리 채택되었으며, 그 다음이 여러 변형 (Ba et al., 2016; Salimans and Kingma, 2016; Ulyanov et al., 2016; Cooijmans et al., 2016; Wu and He, 2018)이다. 더 나은 조건화된 최적화 풍경 (Santurkar et al., 2018) 측면에서 정상화의 이점을 엄격하게 설명하려는 일부 시도에도 불구하고, 지침 원칙을 제공할 수 있는 일반 이론은 작성 당시 여전히 누락되어 있다.

Data augmentation

CNN은 번역 불변 및 스케일 분리와 관련된 기하학적 전적을 인코딩하지만, 번개 또는 색상 변화, 또는 작은 회전 및 확장과 같은 의미 정보를 보존하는 다른 알려진 변환을 명시적으로 설명하지 않는다. 이러한 이전을 최소한의 아키텍처 변경으로 통합하기 위한 실용적인 접근법은 data augmentation을 수행하는 것입니다. 여기서 수동으로 입력 이미지에 대한 변환을 수행하고 이를 훈련 세트에 추가합니다.

데이터 증강은 경험적으로 성공했으며 최첨단 비전 아키텍처를 훈련하는 데뿐만 아니라 자체 감독 및 인과 표현 학습 (Chen et al., 2020; Grill et al., 2020; Mitrovic et al., 2020)에서 여러 개발을 지원하는 데 널리 사용된다. 그러나 샘플 복잡도 (Mei et al., 2021) 측면에서 입증할 수 있을 정도로 차선책이며, 다음으로 논의하겠지만 더 효율적인 전략은 대신 더 풍부한 불변 그룹을 가진 아키텍처를 고려한다.

5.2 Group-equivariant CNNs

섹션 4.3에서 논의된 바와 같이, 우리는 유클리드 공간 상의 신호에서 임의의 homogeneous space ΩΩ\Omegaroman_Ω 그룹 𝔊𝔊{\mathfrak{G}}fraktur_G 133133133133Recall that a homogeneous space is a set ΩΩ\Omegaroman_Ω equipped a transitive group action, meaning for any u,vΩ𝑢𝑣Ωu,v\in\Omegaitalic_u , italic_v ∈ roman_Ω such translated 필터가 신호와 일치하는 유클리드 컨볼루션과 유추하여 그룹 컨볼루션의 아이디어는 예를 들어 회전 및 번역을 통해 그룹 액션을 사용하여 필터를 도메인 주위에 이동시키는 것이다. 그룹 액션의 transitivity 덕분에 필터를 ΩΩ\Omegaroman_Ω 상의 임의의 위치로 이동시킬 수 있다. 이 절에서는 구현 측면과 아키텍처 선택을 포함하여 그룹 컨볼루션의 일반적인 아이디어에 대한 몇 가지 구체적인 예를 논의할 것이다.

Discrete group convolution

도메인 ΩΩ\Omegaroman_Ω 뿐만 아니라 그룹 𝔊𝔊{\mathfrak{G}}fraktur_G가 이산적인 경우를 고려하여 시작한다. 첫 번째 예로, 이산 이동 및 회전 대칭을 갖는 3D 그리드 상의 신호로 표현되는 의료 체적 이미지를 고려한다. 도메인은 3D 큐비컬 그리드 Ω=3Ωsuperscript3\Omega=\mathbb{Z}^{3}roman_Ω = blackboard_Z start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT이고, 이미지들(예를 들어, MRI 또는 CT 3D 스캔들)은 함수 x:3:𝑥superscript3x:\mathbb{Z}^{3}\rightarrow\mathbb{R}italic_x : blackboard_Z start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT → blackboard_R, 즉 x𝒳(Ω)𝑥𝒳Ωx\in\mathcal{X}(\Omega)italic_x ∈ caligraphic_X ( roman_Ω )로 모델링된다. 실제로 이러한 이미지는 유한 큐보이드 [W]×[H]×[D]3delimited-[]𝑊delimited-[]𝐻delimited-[]𝐷superscript3[W]\times[H]\times[D]\subset\mathbb{Z}^{3}[ italic_W ] × [ italic_H ] × [ italic_D ] ⊂ blackboard_Z start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT에서 지원되지만, 대신 적절한 제로 패딩이 있는 3superscript3\mathbb{Z}^{3}blackboard_Z start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT에서 함수로 보는 것을 선호한다. 우리의 대칭으로서, 우리는 3superscript3\mathbb{Z}^{3}blackboard_Z start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT에 대한 거리 및 방향 보존 변환의 그룹 𝔊=3Oh𝔊right-normal-factor-semidirect-productsuperscript3subscript𝑂{\mathfrak{G}}=\mathbb{Z}^{3}\rtimes O_{h}fraktur_G = blackboard_Z start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT ⋊ italic_O start_POSTSUBSCRIPT italic_h end_POSTSUBSCRIPT를 고려한다. 이 그룹은 세 축에 대한 90909090 정도 회전에 의해 생성된 번역(3superscript3\mathbb{Z}^{3}blackboard_Z start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT)과 이산 회전(Ohsubscript𝑂O_{h}italic_O start_POSTSUBSCRIPT italic_h end_POSTSUBSCRIPT)으로 구성된다(도 16 참조).

Refer to caption
도 16: A 3×3333\times 33 × 3 필터, 이산 회전 그룹의 모든 24242424 요소에 의해 회전된 Ohsubscript𝑂O_{h}italic_O start_POSTSUBSCRIPT italic_h end_POSTSUBSCRIPT, 90909090-degree rotations for the vertical axis(red arrows), 120120120120-degree rotations for a diagonal axis(blue arrows).

두 번째 예로, 우리는 C, G, A, T의 네 글자로 구성된 DNA134134134DNA is a biopolymer molecule made of four repeating units called nucleotides (Cytosine, Guanine, Adenine, and Thymine), arranged into two strands coiled around each other in a double helix, where each nucleotide occurs opposite of the complementary one (base pairs A/T and C/G). sequence를 고려한다. 시퀀스들은 신호들 x:4:𝑥superscript4x:\mathbb{Z}\rightarrow\mathbb{R}^{4}italic_x : blackboard_Z → blackboard_R start_POSTSUPERSCRIPT 4 end_POSTSUPERSCRIPT로서 1D 그리드 Ω=Ω\Omega=\mathbb{Z}roman_Ω = blackboard_Z 상에 표현될 수 있으며, 여기서 각각의 문자는 4superscript4\mathbb{R}^{4}blackboard_R start_POSTSUPERSCRIPT 4 end_POSTSUPERSCRIPT에서 원-핫 코딩된다. 당연히 우리는 그리드에 이산적인 1D 번역 대칭을 가지고 있지만 DNA 서열은 추가적인 흥미로운 대칭을 가지고 있다. 이 대칭은 DNA가 물리적으로 이중 나선으로 구현되는 방식과 세포의 분자 기계에 의해 읽혀지는 방식에서 발생한다. 이중 나선의 각 가닥은 소위 5superscript55^{\prime}5 start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT-end로 시작하고, 다른 가닥의 3superscript33^{\prime}3 start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT로 보완된 한 가닥의 5superscript55^{\prime}5 start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT로 끝난다. 즉, 두 가닥은 반대 방향을 갖는다. 135135135[Uncaptioned image]
A schematic of the DNA’s double helix structure, with the two strands coloured in blue and red. Note how the sequences in the helices are complementary and read in reverse (from 5’ to 3’).
DNA 분자는 항상 5superscript55^{\prime}5 start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT-end에서 시작하여 판독되지만, 우리는 ACCCTGG와 같은 시퀀스가 각각의 문자가 그것의 보체인 CCAGGGT로 대체된 역전된 시퀀스와 동등하다는 것을 알지 못한다. 이를 문자 시퀀스의 reverse-complement symmetry이라고 한다. 따라서 우리는 아이덴티티 00에 대응하는 두 요소 그룹 2={0,1}subscript201\mathbb{Z}_{2}=\{0,1\}blackboard_Z start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT = { 0 , 1 }와 역보완 변환 1111를 갖는다(및 구성 1+1=0mod211modulo021+1=0\mod{2}1 + 1 = 0 roman_mod 2). 전체 그룹은 번역과 역보완 변환을 결합한다.

우리의 경우, 섹션 4.3에서 정의한 그룹 컨볼루션(14)은 다음과 같이 주어진다.

(xθ)(𝔤)=uΩxuρ(𝔤)θu,𝑥𝜃𝔤subscript𝑢Ωsubscript𝑥𝑢𝜌𝔤subscript𝜃𝑢(x\star\theta)({\mathfrak{g}})=\sum_{u\in\Omega}x_{u}\rho({\mathfrak{g}})\theta_{u},( italic_x ⋆ italic_θ ) ( fraktur_g ) = ∑ start_POSTSUBSCRIPT italic_u ∈ roman_Ω end_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT italic_ρ ( fraktur_g ) italic_θ start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , (31)

the inner product between the (single-channel) input signal x𝑥xitalic_x and a filter θ𝜃\thetaitalic_θ transformed by 𝔤𝔊𝔤𝔊{\mathfrak{g}}\in{\mathfrak{G}}fraktur_g ∈ fraktur_G via ρ(𝔤)θu=θ𝔤1u𝜌𝔤subscript𝜃𝑢subscript𝜃superscript𝔤1𝑢\rho({\mathfrak{g}})\theta_{u}=\theta_{{\mathfrak{g}}^{-1}u}italic_ρ ( fraktur_g ) italic_θ start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = italic_θ start_POSTSUBSCRIPT fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT italic_u end_POSTSUBSCRIPT, and the output xθ𝑥𝜃x\star\thetaitalic_x ⋆ italic_θ is a function on 𝔊𝔊{\mathfrak{G}}fraktur_G. Note that since ΩΩ\Omegaroman_Ω is discrete, we have replaced the integral from equation (14) by a sum.

Transform+Convolve approach

그룹 컨볼루션이 필터 변환 단계와 병진 컨볼루션 단계의 두 단계로 구현될 수 있음을 보일 것이다. 필터 변환 단계는 기본 필터의 회전된(또는 역-보완 변환된) 복사본을 생성하는 것으로 구성되는 반면, 병진 컨볼루션은 표준 CNN에서와 동일하고 따라서 GPU와 같은 하드웨어 상에서 효율적으로 계산가능하다. 이를 보기 위해, 두 예 모두에서 우리는 일반적인 변환 𝔤𝔊𝔤𝔊{\mathfrak{g}}\in{\mathfrak{G}}fraktur_g ∈ fraktur_G를 변환 𝔥𝔥{\mathfrak{h}}\in{\mathfrak{H}}fraktur_h ∈ fraktur_H(예를 들어, 회전 또는 역보체 변환)로 쓸 수 있고, 이어서 번역 𝔨d𝔨superscript𝑑{\mathfrak{k}}\in\mathbb{Z}^{d}fraktur_k ∈ blackboard_Z start_POSTSUPERSCRIPT italic_d end_POSTSUPERSCRIPT, 즉 𝔤=𝔨𝔥𝔤𝔨𝔥{\mathfrak{g}}={\mathfrak{k}}{\mathfrak{h}}fraktur_g = fraktur_k fraktur_h(그룹 원소 𝔨𝔨{\mathfrak{k}}fraktur_k𝔥𝔥{\mathfrak{h}}fraktur_h의 구성을 나타내는 병치)를 쓸 수 있다는 점에 유의한다. 그룹 표현의 속성에 의해, ρ(𝔤)=ρ(𝔨𝔥)=ρ(𝔨)ρ(𝔥)𝜌𝔤𝜌𝔨𝔥𝜌𝔨𝜌𝔥\rho({\mathfrak{g}})=\rho({\mathfrak{k}}{\mathfrak{h}})=\rho({\mathfrak{k}})\rho({\mathfrak{h}})italic_ρ ( fraktur_g ) = italic_ρ ( fraktur_k fraktur_h ) = italic_ρ ( fraktur_k ) italic_ρ ( fraktur_h )가 있다. 따라서,

(xθ)(𝔨𝔥)𝑥𝜃𝔨𝔥\displaystyle(x\star\theta)({\mathfrak{k}}{\mathfrak{h}})( italic_x ⋆ italic_θ ) ( fraktur_k fraktur_h ) =uΩxuρ(𝔨)ρ(𝔥)θuabsentsubscript𝑢Ωsubscript𝑥𝑢𝜌𝔨𝜌𝔥subscript𝜃𝑢\displaystyle=\sum_{u\in\Omega}x_{u}\rho({\mathfrak{k}})\rho({\mathfrak{h}})\theta_{u}= ∑ start_POSTSUBSCRIPT italic_u ∈ roman_Ω end_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT italic_ρ ( fraktur_k ) italic_ρ ( fraktur_h ) italic_θ start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT (32)
=uΩxu(ρ(𝔥)θ)u𝔨absentsubscript𝑢Ωsubscript𝑥𝑢subscript𝜌𝔥𝜃𝑢𝔨\displaystyle=\sum_{u\in\Omega}x_{u}(\rho({\mathfrak{h}})\theta)_{u-{\mathfrak{k}}}= ∑ start_POSTSUBSCRIPT italic_u ∈ roman_Ω end_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ( italic_ρ ( fraktur_h ) italic_θ ) start_POSTSUBSCRIPT italic_u - fraktur_k end_POSTSUBSCRIPT

We recognise the last equation as the standard (planar Euclidean) convolution of the signal x𝑥xitalic_x and the transformed filter ρ(𝔥)θ𝜌𝔥𝜃\rho({\mathfrak{h}})\thetaitalic_ρ ( fraktur_h ) italic_θ. Thus, to implement group convolution for these groups, we take the canonical filter θ𝜃\thetaitalic_θ, create transformed copies θ𝔥=ρ(𝔥)θsubscript𝜃𝔥𝜌𝔥𝜃\theta_{\mathfrak{h}}=\rho({\mathfrak{h}})\thetaitalic_θ start_POSTSUBSCRIPT fraktur_h end_POSTSUBSCRIPT = italic_ρ ( fraktur_h ) italic_θ for each 𝔥𝔥{\mathfrak{h}}\in{\mathfrak{H}}fraktur_h ∈ fraktur_H (e.g. each rotation 𝔥Oh𝔥subscript𝑂{\mathfrak{h}}\in O_{h}fraktur_h ∈ italic_O start_POSTSUBSCRIPT italic_h end_POSTSUBSCRIPT or reverse-complement DNA symmetry 𝔥2𝔥subscript2{\mathfrak{h}}\in\mathbb{Z}_{2}fraktur_h ∈ blackboard_Z start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT), and then convolve x𝑥xitalic_x with each of these filters: (xθ)(𝔨𝔥)=(xθ𝔥)(𝔨)𝑥𝜃𝔨𝔥𝑥subscript𝜃𝔥𝔨(x\star\theta)({\mathfrak{k}}{\mathfrak{h}})=(x\star\theta_{{\mathfrak{h}}})({\mathfrak{k}})( italic_x ⋆ italic_θ ) ( fraktur_k fraktur_h ) = ( italic_x ⋆ italic_θ start_POSTSUBSCRIPT fraktur_h end_POSTSUBSCRIPT ) ( fraktur_k ). For both of our examples, the symmetries act on filters by simply permuting the filter coefficients, as shown in Figure 16 for discrete rotations. Hence, these operations can be implemented efficiently using an indexing operation with pre-computed indices.

그룹 컨볼루션 xθ𝑥𝜃x\star\thetaitalic_x ⋆ italic_θ에 의해 출력된 특징 맵들을 𝔊𝔊{\mathfrak{G}}fraktur_G에 대한 함수로서 정의한 반면, 𝔤𝔤{\mathfrak{g}}fraktur_g𝔥𝔥{\mathfrak{h}}fraktur_h𝔨𝔨{\mathfrak{k}}fraktur_k로 분할할 수 있다는 사실은 이들을 유클리드 특징 맵들의 스택(때때로 orientation channels이라고 부르기도 하며, 필터 변환당 하나의 특징 맵이 𝔨𝔨{\mathfrak{k}}fraktur_k이다. 예를 들어, 첫 번째 예에서는 회전된 필터를 컨볼빙(전통적인 병진 의미에서)하여 얻은 특징 맵(그림 16의 각 노드)에 연결한다. 따라서 이러한 특징 맵들은 여전히 W×H×C𝑊𝐻𝐶W\times H\times Citalic_W × italic_H × italic_C 어레이로서 저장될 수 있으며, 여기서 채널들의 수 C𝐶Citalic_C는 변환들의 수 𝔥𝔥{\mathfrak{h}}\in{\mathfrak{H}}fraktur_h ∈ fraktur_H를 곱한 독립 필터들의 수와 같다(예를 들어, 회전들).

섹션 4.3에 도시된 바와 같이, 그룹 컨볼루션은 equivariant: (ρ(𝔤)x)θ=ρ(𝔤)(xθ)𝜌𝔤𝑥𝜃𝜌𝔤𝑥𝜃(\rho({\mathfrak{g}})x)\star\theta=\rho({\mathfrak{g}})(x\star\theta)( italic_ρ ( fraktur_g ) italic_x ) ⋆ italic_θ = italic_ρ ( fraktur_g ) ( italic_x ⋆ italic_θ )이다. 이것이 배향 채널의 관점에서 의미하는 바는 𝔥𝔥{\mathfrak{h}}fraktur_h의 작용 하에서, 각 배향 채널이 변환되고, 배향 채널 자체가 순열된다는 것이다. 예를 들어, 그림 16에서 변환당 하나의 배향 채널을 연관시키고 z축에 대해 90909090 도만큼 회전을 적용하면(빨간색 화살표에 해당), 특징 맵은 빨간색 화살표로 표시된 대로 순열될 것이다. 이러한 설명은 그룹 컨볼루션 신경망이 전통적인 CNN과 많은 유사성을 갖는다는 것을 분명히 한다. 따라서 잔차 네트워크와 같은 섹션 5.1에서 논의된 많은 네트워크 설계 패턴이 그룹 컨볼루션과 함께 사용될 수 있다.

Spherical CNNs in the Fourier domain

4.3 섹션에서 본 구의 연속 대칭 그룹에 대해, 적절한 푸리에 변환을 사용하여 스펙트럼 도메인에서 컨벌루션을 구현할 수 있다(우리는 독자에게 𝕊2superscript𝕊2\mathbb{S}^{2}blackboard_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT 상의 컨벌루션이 SO(3)SO3\mathrm{SO}(3)roman_SO ( 3 ) 상의 함수임을 상기시킨다), 따라서 다층 구형 CNN을 구현하기 위해서는 이 두 도메인 모두에서 푸리에 변환을 정의해야 한다. Spherical harmonics은 복소 지수의 고전적인 푸리에 기초와 유사하게 2D 구체 상의 직교 기초이다. 특수 직교 그룹에서 푸리에 기반은 Wigner D-functions으로 알려져 있습니다. 두 경우 모두 푸리에 변환(계수)은 기저함수와 내적 곱으로 계산되며, 콘볼루션 정리의 유추는 푸리에 변환의 요소별 곱으로 푸리에 도메인에서 콘볼루션을 계산할 수 있다. 또한, 𝕊2superscript𝕊2\mathbb{S}^{2}blackboard_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPTSO(3)SO3\mathrm{SO}(3)roman_SO ( 3 )에 대한 푸리에 변환의 효율적인 연산을 위한 FFT 유사 알고리즘이 존재한다. 자세한 내용은 Cohen et al. (2018)를 참조한다.

5.3 Graph Neural Networks

그래프 신경망(GNN)은 순열 그룹의 특성을 활용하는 그래프에 대한 기하학적 딥 러닝 청사진을 실현하는 것이다. GNN은 현재 존재하는 딥 러닝 아키텍처의 가장 일반적인 클래스 중 하나이며, 이 텍스트에서 볼 수 있듯이, 대부분의 다른 딥 러닝 아키텍처는 추가적인 기하학적 구조를 갖는 GNN의 특수한 경우로 이해될 수 있다.

섹션 4.1에서의 우리의 논의에 따라, 우리는 인접 행렬 𝐀𝐀\mathbf{A}bold_A 및 노드 특징 𝐗𝐗\mathbf{X}bold_X로 지정될 그래프를 고려한다. 우리는 공유된 permutation equivariant functions 𝐅(𝐗,𝐀)𝐅𝐗𝐀\mathbf{F}(\mathbf{X},\mathbf{A})bold_F ( bold_X , bold_A ) shared permutation invariant functions ϕ(𝐱u,𝐗𝒩u)italic-ϕsubscript𝐱𝑢subscript𝐗subscript𝒩𝑢\phi(\mathbf{x}_{u},\mathbf{X}_{\mathcal{N}_{u}})italic_ϕ ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_X start_POSTSUBSCRIPT caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT end_POSTSUBSCRIPT ) over local neighborhoods. 다양한 가명 하에서, 이 로컬 함수 ϕitalic-ϕ\phiitalic_ϕ는 "확산", "전파", 또는 "메시지 통과"로 지칭될 수 있고, 이러한 𝐅𝐅\mathbf{F}bold_F의 전체 계산은 "GNN 층"으로 지칭될 수 있다.

GNN 레이어의 설계 및 연구는 글쓰기 당시 딥러닝의 가장 활발한 영역 중 하나로 탐색하기 어려운 풍경이다. 다행히도, 우리는 대다수의 문헌이 GNN 층의 세 가지 "맛"에서만 파생될 수 있음을 발견한다(그림 17). 이러한 풍미는 ϕitalic-ϕ\phiitalic_ϕ가 이웃 특징을 변환하는 정도를 지배하여 그래프 전반에 걸친 상호작용을 모델링할 때 다양한 정도의 복잡성을 허용한다.

세 가지 향미 모두에서, 순열 불변성은 aggregating features from 𝐗𝒩usubscript𝐗subscript𝒩𝑢\mathbf{X}_{\mathcal{N}_{u}}bold_X start_POSTSUBSCRIPT caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT end_POSTSUBSCRIPT (potentially transformed, by means of some function ψ𝜓\psiitalic_ψ) with some permutation-invariant function direct-sum\bigoplus, and then updating the features of node u𝑢uitalic_u, by some function ϕitalic-ϕ\phiitalic_ϕ에 의해 보장된다. 전형적으로, 136136136136136가장 일반적으로, ψ𝜓\psiitalic_ψϕitalic-ϕ\phiitalic_ϕ는 활성화 함수를 갖는 학습 가능한 어파인 변환; e.g. ψ(𝐱)=𝐖𝐱+𝐛𝜓𝐱𝐖𝐱𝐛\psi(\mathbf{x})={\bf W}\mathbf{x}+\mathbf{b}italic_ψ ( bold_x ) = bold_Wx + bold_b; ϕ(𝐱,𝐳)=σ(𝐖𝐱+𝐔𝐳+𝐛)italic-ϕ𝐱𝐳𝜎𝐖𝐱𝐔𝐳𝐛\phi(\mathbf{x},\mathbf{z})=\sigma\left({\bf W}\mathbf{x}+{\bf U}\mathbf{z}+\mathbf{b}\right)italic_ϕ ( bold_x , bold_z ) = italic_σ ( bold_Wx + bold_Uz + bold_b ), 여기서 𝐖,𝐔,𝐛𝐖𝐔𝐛{\bf W},{\bf U},\mathbf{b}bold_W , bold_U , bold_b는 학습 가능한 파라미터이고 σ𝜎\sigmaitalic_σ는 정류된 선형 단위와 같은 활성화 함수이다. 𝐱usubscript𝐱𝑢\mathbf{x}_{u}bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT 내지 ϕitalic-ϕ\phiitalic_ϕ의 추가 입력은 선택적인 skip-connection을 나타내며, 이는 종종 매우 유용하다. ψ𝜓\psiitalic_ψϕitalic-ϕ\phiitalic_ϕ는 학습 가능한 반면, direct-sum\bigoplus는 sum, mean, maximum 등의 비모수 연산으로 실현되지만, 예를 들어 순환 신경망 (Murphy et al., 2018)를 사용하여 구성할 수도 있다.

Refer to caption
Refer to caption
Refer to caption
도 17: A visualisation of the dataflow for the three flavours of GNN layers, g𝑔gitalic_g. 이를 설명하기 위해 그림 10의 노드 b𝑏bitalic_b의 이웃을 이용한다. Left-to-right: convolutional, 여기서 송신자 노드 특징은 상수로 곱해지고, cuvsubscript𝑐𝑢𝑣c_{uv}italic_c start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT; attentional, 여기서 이 곱셈기는 송신자에 대한 수신자의 주의 메커니즘을 통해 계산된 implicitly: αuv=a(𝐱u,𝐱v)subscript𝛼𝑢𝑣𝑎subscript𝐱𝑢subscript𝐱𝑣\alpha_{uv}=a(\mathbf{x}_{u},\mathbf{x}_{v})italic_α start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT = italic_a ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ); 및 message-passing, 여기서 벡터 기반 메시지는 송신자와 수신자 모두에 기초하여 계산된다: 𝐦uv=ψ(𝐱u,𝐱v)subscript𝐦𝑢𝑣𝜓subscript𝐱𝑢subscript𝐱𝑣\mathbf{m}_{uv}=\psi(\mathbf{x}_{u},\mathbf{x}_{v})bold_m start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT = italic_ψ ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ).

convolutional flavour (Kipf and Welling, 2016a; Defferrard et al., 2016; Wu et al., 2019)에서, 이웃 노드의 특징은 고정된 가중치로 직접 집계되고,

𝐡u=ϕ(𝐱u,v𝒩ucuvψ(𝐱v)).subscript𝐡𝑢italic-ϕsubscript𝐱𝑢subscriptdirect-sum𝑣subscript𝒩𝑢subscript𝑐𝑢𝑣𝜓subscript𝐱𝑣\mathbf{h}_{u}=\phi\left(\mathbf{x}_{u},\bigoplus\limits_{v\in\mathcal{N}_{u}}c_{uv}\psi(\mathbf{x}_{v})\right).bold_h start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = italic_ϕ ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , ⨁ start_POSTSUBSCRIPT italic_v ∈ caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT end_POSTSUBSCRIPT italic_c start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT italic_ψ ( bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ) ) . (33)

여기서, cuvsubscript𝑐𝑢𝑣c_{uv}italic_c start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPTu𝑢uitalic_uimportance의 노드 v𝑣vitalic_v의 노드 u𝑢uitalic_u의 표현을 특정한다. 그래프의 구조를 나타내는 𝐀𝐀{\bf A}bold_A의 엔트리에 직접적으로 의존하는 경우가 많은 상수이다. 집계 연산자 direct-sum\bigoplus가 합산이 되도록 선택될 때, 그것은 컨벌루션의 일반화인 선형 확산 또는 위치-의존 선형 필터링으로 간주될 수 있다는 점에 유의한다. 137137137It is worthy to note that this flavour does not express every GNN layer that is convolutional (in the sense of commuting with the graph structure), but covers most such approaches proposed in practice. We will provide detailed discussion and extensions in future work.특히 Sections 4.44.6에서 본 스펙트럼 필터는 노드별 신호에 고정 로컬 연산자(예: 라플라시안 행렬)를 적용하는 정도에 해당하므로 이 범주에 속한다.

attentional flavour (Veličković et al., 2018; Monti et al., 2017; Zhang et al., 2018)에서 상호 작용은 암시적이다.

𝐡u=ϕ(𝐱u,v𝒩ua(𝐱u,𝐱v)ψ(𝐱v)).subscript𝐡𝑢italic-ϕsubscript𝐱𝑢subscriptdirect-sum𝑣subscript𝒩𝑢𝑎subscript𝐱𝑢subscript𝐱𝑣𝜓subscript𝐱𝑣\mathbf{h}_{u}=\phi\left(\mathbf{x}_{u},\bigoplus\limits_{v\in\mathcal{N}_{u}}a(\mathbf{x}_{u},\mathbf{x}_{v})\psi(\mathbf{x}_{v})\right).bold_h start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = italic_ϕ ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , ⨁ start_POSTSUBSCRIPT italic_v ∈ caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT end_POSTSUBSCRIPT italic_a ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ) italic_ψ ( bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ) ) . (34)

여기서, a𝑎aitalic_a는 학습 가능한 self-attention mechanism으로 중요도 계수 αuv=a(𝐱u,𝐱v)subscript𝛼𝑢𝑣𝑎subscript𝐱𝑢subscript𝐱𝑣\alpha_{uv}=a(\mathbf{x}_{u},\mathbf{x}_{v})italic_α start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT = italic_a ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT )를 암묵적으로 연산한다. 그들은 종종 모든 이웃에 걸쳐 소프트맥스 정규화된다. direct-sum\bigoplus가 합산일 때, 집계는 여전히 이웃 노드 특징들의 선형 조합이지만, 이제 가중치들은 특징-의존적이다.

마지막으로 message-passing flavour (Gilmer et al., 2017; Battaglia et al., 2018) amounts to computing arbitrary vectors("messages") across edge,

𝐡u=ϕ(𝐱u,v𝒩uψ(𝐱u,𝐱v)).subscript𝐡𝑢italic-ϕsubscript𝐱𝑢subscriptdirect-sum𝑣subscript𝒩𝑢𝜓subscript𝐱𝑢subscript𝐱𝑣\mathbf{h}_{u}=\phi\left(\mathbf{x}_{u},\bigoplus\limits_{v\in\mathcal{N}_{u}}\psi(\mathbf{x}_{u},\mathbf{x}_{v})\right).bold_h start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = italic_ϕ ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , ⨁ start_POSTSUBSCRIPT italic_v ∈ caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT end_POSTSUBSCRIPT italic_ψ ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ) ) . (35)

여기서, ψ𝜓\psiitalic_ψ는 학습 가능한 message function, computing v𝑣vitalic_v’s vector sent to u𝑢uitalic_u이며, aggregation은 그래프 상에 메시지를 전달하는 형태로 간주될 수 있다.

한 가지 중요한 사항은 이러한 접근법 간의 표현적 포함입니다. convolution \subseteq attention \subseteq message-passing. 실제로, 어텐션 GNN은 룩-업 테이블 a(𝐱u,𝐱v)=cuv𝑎subscript𝐱𝑢subscript𝐱𝑣subscript𝑐𝑢𝑣a(\mathbf{x}_{u},\mathbf{x}_{v})=c_{uv}italic_a ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ) = italic_c start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT로 구현된 어텐션 메커니즘에 의해 컨볼루션 GNN을 나타낼 수 있고, 컨볼루션 및 어텐션 GNN 모두 메시지가 송신자 노드의 특징인 컨볼루션 GNN의 경우 ψ(𝐱u,𝐱v)=cuvψ(𝐱v)𝜓subscript𝐱𝑢subscript𝐱𝑣subscript𝑐𝑢𝑣𝜓subscript𝐱𝑣\psi(\mathbf{x}_{u},\mathbf{x}_{v})=c_{uv}\psi(\mathbf{x}_{v})italic_ψ ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ) = italic_c start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT italic_ψ ( bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT )이고 어텐션 GNN의 경우 ψ(𝐱u,𝐱v)=a(𝐱u,𝐱v)ψ(𝐱v)𝜓subscript𝐱𝑢subscript𝐱𝑣𝑎subscript𝐱𝑢subscript𝐱𝑣𝜓subscript𝐱𝑣\psi(\mathbf{x}_{u},\mathbf{x}_{v})=a(\mathbf{x}_{u},\mathbf{x}_{v})\psi(\mathbf{x}_{v})italic_ψ ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ) = italic_a ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ) italic_ψ ( bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT )인 메시지 패싱의 특수한 경우이다.

이것은 GNN을 전달하는 메시지가 항상 가장 유용한 변형이라는 것을 의미하지 않으며, 에지들을 가로질러 벡터 값 메시지들을 계산해야 하기 때문에, 이들은 전형적으로 트레이닝하기가 더 어렵고 다루기 힘든 양의 메모리를 필요로 한다. 또한, 광범위한 자연 발생 그래프에서, 그래프의 에지는 다운스트림 클래스 유사성에 대해 인코딩된다(즉, 에지 (u,v)𝑢𝑣(u,v)( italic_u , italic_v )u𝑢uitalic_uv𝑣vitalic_v가 동일한 출력을 가질 가능성이 있음을 의미한다). 이러한 그래프(종종 homophilous이라고 함)의 경우, 이웃 간의 컨볼루션 집계는 규칙화 및 확장성 측면에서 훨씬 더 나은 선택인 경우가 많습니다. 주목하는 GNN은 "중간 범위"를 제공한다: 그들은 이웃들 내에서 복잡한 상호작용들을 모델링하는 것을 허용하면서, 에지들을 가로질러 스칼라-값된 양들만을 컴퓨팅함으로써, 메시지-통과보다 더 확장가능하게 한다.

여기에 제시된 "3가지 맛" 분류는 간결함을 염두에 두고 제공되며 불가피하게 GNN 모델에 대한 풍부한 뉘앙스, 통찰력, 일반화 및 역사적 맥락을 무시한다. 중요한 것은 Weisfeiler-Lehman 계층에 기반한 고차원 GNN과 그래프 푸리에 변환의 명시적 계산에 의존하는 스펙트럼 GNN을 제외한다는 것이다.

5.4 Deep Sets, Transformers, and Latent Graph Inference

unordered sets의 표현을 학습하기 위한 순열-등분산 신경망 아키텍처에 대해 언급함으로써 GNN에 대한 논의를 마무리한다. 이 텍스트에서 논의한 도메인 중 집합은 구조가 가장 적지만 최근 트랜스포머 (Vaswani et al., 2017) 및 딥셋 (Zaheer et al., 2017)와 같은 인기 있는 아키텍처에 의해 중요성이 강조되고 있다. 섹션 4.1의 언어에서, 우리는 노드 특징들의 매트릭스, 𝐗𝐗{\bf X}bold_X가 주어지지만, 노드들 사이의 임의의 지정된 인접성 또는 순서 정보가 주어지지 않는다고 가정한다. 특정 아키텍처는 노드 간의 interactions을 어느 정도 모델링할지 결정함으로써 발생할 것이다.

Empty edge set

순서화되지 않은 집합은 별도의 구조나 기하학 없이 제공된다. 따라서, 이들을 처리하는 가장 자연스러운 방법은 각 집합 요소를 전적으로 independently으로 처리하는 것이라고 주장할 수 있다. 이것은 그러한 입력에 대한 순열 등분산 함수로 변환되며, 이는 섹션 4.1: 격리된 모든 노드에 적용된 공유 변환에서 이미 도입되었다. GNNs를 설명할 때와 동일한 표기를 가정하면(Section 5.3), 이러한 모델은 다음과 같이 나타낼 수 있다.

𝐡u=ψ(𝐱u),subscript𝐡𝑢𝜓subscript𝐱𝑢\mathbf{h}_{u}=\psi(\mathbf{x}_{u}),bold_h start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = italic_ψ ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ) ,

여기서 ψ𝜓\psiitalic_ψ는 학습 가능한 변환이다. 이는 𝒩u={u}subscript𝒩𝑢𝑢\mathcal{N}_{u}=\{u\}caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = { italic_u }-또는 등가적으로 𝐀=𝐈𝐀𝐈{\bf A}={\bf I}bold_A = bold_I를 갖는 컨볼루션 GNN의 특수한 경우임을 관찰할 수 있다. 이러한 아키텍처는 이러한 아키텍처의 여러 범용 근사 특성을 이론적으로 증명한 Zaheer et al. (2017)의 작업을 인식하여 일반적으로 Deep Sets라고 한다. 정렬되지 않은 세트를 처리할 필요성은 일반적으로 point clouds을 다룰 때 컴퓨터 비전 및 그래픽에서 발생한다는 점에 유의해야 한다; 그 안에서, 이러한 모델은 PointNets (Qi et al., 2017)로 알려져 있다.

Complete edge set

빈 에지 집합이 정렬되지 않은 집합을 통해 함수를 구축하는 데 매우 효율적인 구성이라고 가정하지만, 종종 집합의 요소가 관계 구조의 일부 형태를 나타내는 것, 즉 노드 사이에 잠재 그래프이 있을 것으로 예상할 수 있다. 𝐀=𝐈𝐀𝐈{\bf A}={\bf I}bold_A = bold_I를 설정하면 이러한 구조는 모두 폐기되며, 최적이 아닌 성능을 낼 수 있다. 반대로, 다른 사전 지식이 없는 경우 any 노드 간의 가능한 링크를 미리 배제할 수 없다고 가정할 수 있다. 이 접근법에서 우리는 complete 그래프, 𝐀=𝟏𝟏𝐀superscript11top{\bf A}={\bf 1}{\bf 1}^{\top}bold_A = bold_11 start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT; 등가적으로 𝒩u=𝒱subscript𝒩𝑢𝒱\mathcal{N}_{u}=\mathcal{V}caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = caligraphic_V를 가정한다. 상호작용 계수에 대한 액세스를 가정하지 않기 때문에 convolutional-type GNNs over the such graph would amount:

𝐡u=ϕ(𝐱u,v𝒱ψ(𝐱v)),subscript𝐡𝑢italic-ϕsubscript𝐱𝑢subscriptdirect-sum𝑣𝒱𝜓subscript𝐱𝑣\mathbf{h}_{u}=\phi\left(\mathbf{x}_{u},\bigoplus_{v\in\mathcal{V}}\psi(\mathbf{x}_{v})\right),bold_h start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = italic_ϕ ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , ⨁ start_POSTSUBSCRIPT italic_v ∈ caligraphic_V end_POSTSUBSCRIPT italic_ψ ( bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ) ) ,

where the second input, v𝒱ψ(𝐱v)subscriptdirect-sum𝑣𝒱𝜓subscript𝐱𝑣\bigoplus_{v\in\mathcal{V}}\psi(\mathbf{x}_{v})⨁ start_POSTSUBSCRIPT italic_v ∈ caligraphic_V end_POSTSUBSCRIPT italic_ψ ( bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ) is identical for all nodes u𝑢uitalic_u138138138This is a direct consequence of the permutation invariance of direct-sum\bigoplus., and as such makes the model equivalently expressive to ignoring that input altogether; i.e. the 𝐀=𝐈𝐀𝐈{\bf A}={\bf I}bold_A = bold_I case mentioned above.

이것은 더 표현력 있는 GNN 맛인 attentional,

𝐡u=ϕ(𝐱u,v𝒱a(𝐱u,𝐱v)ψ(𝐱v))subscript𝐡𝑢italic-ϕsubscript𝐱𝑢subscriptdirect-sum𝑣𝒱𝑎subscript𝐱𝑢subscript𝐱𝑣𝜓subscript𝐱𝑣\mathbf{h}_{u}=\phi\left(\mathbf{x}_{u},\bigoplus_{v\in\mathcal{V}}a(\mathbf{x}_{u},\mathbf{x}_{v})\psi(\mathbf{x}_{v})\right)bold_h start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = italic_ϕ ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , ⨁ start_POSTSUBSCRIPT italic_v ∈ caligraphic_V end_POSTSUBSCRIPT italic_a ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ) italic_ψ ( bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ) ) (36)

이는 self-attention operator, the core of the Transformer architecture (Vaswani et al., 2017)를 산출한다. 어텐션 계수(예: softmax)에 대한 어떤 종류의 정규화를 가정하면, 우리는 모든 스칼라 a(𝐱u,𝐱v)𝑎subscript𝐱𝑢subscript𝐱𝑣a(\mathbf{x}_{u},\mathbf{x}_{v})italic_a ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT )[0,1]01[0,1][ 0 , 1 ] 범위에 있도록 제한할 수 있다; 따라서, 우리는 셀프 어텐션이 일부 다운스트림 태스크에 대한 그래디언트 기반 최적화의 부산물로서 soft adjacency matrix, auv=a(𝐱u,𝐱v)subscript𝑎𝑢𝑣𝑎subscript𝐱𝑢subscript𝐱𝑣a_{uv}=a(\mathbf{x}_{u},\mathbf{x}_{v})italic_a start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT = italic_a ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT )를 추론하는 것으로 생각할 수 있다.

위의 관점은 완전한 그래프 (Joshi, 2020)에 대해 Transformers를 주의력 있는 GNN으로 정확히 포즈를 취할 수 있음을 의미한다. 139139139It is also appropriate to apply the message-passing flavour. While popular for physics simulations and relational reasoning (e.g. Battaglia et al. (2016); Santoro et al. (2017)), they have not been as widely used as Transformers. This is likely due to the memory issues associated with computing vector messages over a complete graph, or the fact that vector-based messages are less interpretable than the “soft adjacency” provided by self-attention.그러나, 이는 sequences—the representations of 𝐡usubscript𝐡𝑢\mathbf{h}_{u}bold_h start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT should be mindful of node u𝑢uitalic_u’s position in the sequence, which complete-graph aggregation would ignore. 트랜스포머는 positional encodings: 노드 특징 𝐱usubscript𝐱𝑢\mathbf{x}_{u}bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT는 일반적으로 주파수가 u𝑢uitalic_u에 의존하는 사인파로부터의 샘플로서 시퀀스에서 노드 u𝑢uitalic_u의 위치를 인코딩하도록 증강된다.

노드의 자연스러운 순서가 존재하지 않는 그래프에서 이러한 위치 인코딩에 대한 여러 대안이 제시되었다. 나중에 이러한 대안을 논의하는 것을 연기하지만, 우리는 트랜스포머에서 사용되는 위치 인코딩이 이산 푸리에 변환(DFT)과 직접 관련될 수 있고 따라서 "원형 그리드"의 그래프 라플라시안 고유 벡터와 관련될 수 있다는 실현을 포함하는 한 가지 유망한 방향에 주목한다. 따라서 트랜스포머의 위치 인코딩은 입력 노드가 그리드에서 연결된다는 가정을 암시적으로 나타낸다. 보다 일반적인 그래프 구조의 경우, 경험적으로 강력한 그래프 트랜스포머 모델 내에서 Dwivedi and Bresson (2020)에 의해 이용된 관찰인 (가정된) 그래프의 라플라시안 고유 벡터를 간단히 사용할 수 있다.

Inferred edge set

마지막으로, 잠재 관계 구조를 학습하려고 시도할 수 있으며, 이는 𝐈𝐈{\bf I}bold_I도 아니고 𝟏𝟏superscript11top{\bf 1}{\bf 1}^{\top}bold_11 start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT도 아닌 일부 일반적인 𝐀𝐀{\bf A}bold_A로 이어진다. GNN이 사용하기 위한 잠재 인접 행렬 𝐀𝐀{\bf A}bold_A를 추론하는 문제(종종 잠재 그래프 추론이라고 함)는 그래프 표현 학습에 대한 관심이 높다. 이는 𝐀=𝐈𝐀𝐈{\bf A}={\bf I}bold_A = bold_I를 가정하는 것이 표현적으로 열등할 수 있고, 𝐀=𝟏𝟏𝐀superscript11top{\bf A}={\bf 1}{\bf 1}^{\top}bold_A = bold_11 start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT는 메모리 요구 사항 및 집계할 큰 이웃으로 인해 구현하기 어려울 수 있기 때문이다. 부가적으로, 그것은 "참" 문제에 가장 가깝다: 인접 매트릭스 𝐀𝐀{\bf A}bold_A를 추론하는 것은 𝐗𝐗{\bf X}bold_X의 행들 사이에서 유용한 구조를 검출하는 것을 의미하며, 이는 그 다음에 변수들 사이의 인과 관계와 같은 가설들을 공식화하는 것을 도울 수 있다.

불행히도, 그러한 프레이밍은 모델링 복잡성에서 반드시 단계를 유도한다. 특히, 그래프가 사용되는 모든 다운스트림 태스크와 구조 학습 목적(discrete, 따라서 Gradient 기반 최적화에 도전)의 균형을 적절하게 유지해야 합니다. 이것은 잠재 그래프 추론을 매우 도전적이고 복잡한 문제로 만든다.

5.5 Equivariant Message Passing Networks

그래프 신경망의 많은 응용에서 노드 특징(또는 그 부분)은 임의의 벡터일 뿐만 아니라 기하학적 개체의 coordinates이다. 이것은 예를 들어 분자 그래프를 다룰 때이다: 원자를 나타내는 노드는 원자 타입뿐만 아니라 그것의 3D 공간 좌표에 대한 정보를 포함할 수 있다. 분자가 공간에서 변환되는 것과 동일한 방식으로 변환되는 방식으로 특징의 후부를 처리하는 것이 바람직하며, 다시 말해서, 이전에 논의된 표준 순열 등분산 외에 강체 운동(회전, 병진 및 반사)의 유클리드 그룹 E(3)E3\mathrm{E}(3)roman_E ( 3 )와 등분산되는 것이 바람직하다.

우리의 (약간 단순화된) 분석을 위한 단계를 설정하기 위해, 우리는 노드 features 𝐟udsubscript𝐟𝑢superscript𝑑\mathbf{f}_{u}\in\mathbb{R}^{d}bold_f start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_d end_POSTSUPERSCRIPT와 노드 span> 𝐱u3subscript𝐱𝑢superscript3\mathbf{x}_{u}\in\mathbb{R}^{3}bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT를 구별할 것이다; 후자는 유클리드 대칭 구조를 부여받는다. 이 설정에서 등분산 계층은 이 두 입력을 별도로 명시적으로 변환하여 수정된 노드 특징 𝐟usubscriptsuperscript𝐟𝑢\mathbf{f}^{\prime}_{u}bold_f start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT 및 좌표 𝐱usubscriptsuperscript𝐱𝑢\mathbf{x}^{\prime}_{u}bold_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT를 생성한다.

이제 기하학적 딥러닝 청사진을 따라 바람직한 등분산 특성을 설명할 수 있습니다. 입력의 공간 성분이 𝔤E(3)𝔤E3{\mathfrak{g}}\in\mathrm{E}(3)fraktur_g ∈ roman_E ( 3 )에 의해 변환되는 경우(ρ(𝔤)𝐱=𝐑𝐱+𝐛𝜌𝔤𝐱𝐑𝐱𝐛\rho({\mathfrak{g}})\mathbf{x}=\mathbf{R}\mathbf{x}+\mathbf{b}italic_ρ ( fraktur_g ) bold_x = bold_Rx + bold_b, 여기서 𝐑𝐑\mathbf{R}bold_R는 직교 매트릭스 모델링 회전 및 반사이고, 𝐛𝐛\mathbf{b}bold_b는 번역 벡터인 경우), 출력의 공간 성분은 동일한 방식으로 변환되는 반면(𝐱u𝐑𝐱u+𝐛maps-tosubscriptsuperscript𝐱𝑢subscriptsuperscript𝐑𝐱𝑢𝐛\mathbf{x}^{\prime}_{u}\mapsto\mathbf{R}\mathbf{x}^{\prime}_{u}+\mathbf{b}bold_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ↦ bold_Rx start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT + bold_b와 같이), 𝐟usubscriptsuperscript𝐟𝑢\mathbf{f}^{\prime}_{u}bold_f start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT는 불변으로 유지된다.

일반 그래프의 맥락에서 이전에 논의한 순열 등분산 함수의 공간과 마찬가지로 위의 제약 조건을 충족하는 방대한 양의 E(3)E3\mathrm{E}(3)roman_E ( 3 )-등분산 계층이 존재하지만 이러한 계층이 모두 기하학적으로 안정적이거나 구현이 쉬운 것은 아니다. 사실, 실질적으로 유용한 등분산 층의 공간은 공간 GNN 층의 "세 가지 맛"과 달리 간단한 분류로 쉽게 설명될 수 있다. 하나의 우아한 솔루션은 Satorras et al. (2021)에 의해 equivariant message passing의 형태로 제안되었다. 그들의 모델은 다음과 같이 작동합니다.

𝐟usubscriptsuperscript𝐟𝑢\displaystyle\mathbf{f}^{\prime}_{u}bold_f start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT =\displaystyle== ϕ(𝐟u,v𝒩uψf(𝐟u,𝐟v,𝐱u𝐱v2)),italic-ϕsubscript𝐟𝑢subscriptdirect-sum𝑣subscript𝒩𝑢subscript𝜓fsubscript𝐟𝑢subscript𝐟𝑣superscriptnormsubscript𝐱𝑢subscript𝐱𝑣2\displaystyle\phi\left(\mathbf{f}_{u},\bigoplus\limits_{v\in\mathcal{N}_{u}}\psi_{\mathrm{f}}(\mathbf{f}_{u},\mathbf{f}_{v},\|\mathbf{x}_{u}-\mathbf{x}_{v}\|^{2})\right),italic_ϕ ( bold_f start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , ⨁ start_POSTSUBSCRIPT italic_v ∈ caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT end_POSTSUBSCRIPT italic_ψ start_POSTSUBSCRIPT roman_f end_POSTSUBSCRIPT ( bold_f start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_f start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT , ∥ bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT - bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ) ) ,
𝐱usubscriptsuperscript𝐱𝑢\displaystyle\mathbf{x}^{\prime}_{u}bold_x start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT =\displaystyle== 𝐱u+vu(𝐱u𝐱v)ψc(𝐟u,𝐟v,𝐱u𝐱v2)subscript𝐱𝑢subscript𝑣𝑢subscript𝐱𝑢subscript𝐱𝑣subscript𝜓csubscript𝐟𝑢subscript𝐟𝑣superscriptnormsubscript𝐱𝑢subscript𝐱𝑣2\displaystyle\mathbf{x}_{u}+\sum_{v\neq u}(\mathbf{x}_{u}-\mathbf{x}_{v})\psi_{\mathrm{c}}(\mathbf{f}_{u},\mathbf{f}_{v},\|\mathbf{x}_{u}-\mathbf{x}_{v}\|^{2})bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT + ∑ start_POSTSUBSCRIPT italic_v ≠ italic_u end_POSTSUBSCRIPT ( bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT - bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ) italic_ψ start_POSTSUBSCRIPT roman_c end_POSTSUBSCRIPT ( bold_f start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT , bold_f start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT , ∥ bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT - bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT )

여기서 ψfsubscript𝜓f\psi_{\mathrm{f}}italic_ψ start_POSTSUBSCRIPT roman_f end_POSTSUBSCRIPTψcsubscript𝜓c\psi_{\mathrm{c}}italic_ψ start_POSTSUBSCRIPT roman_c end_POSTSUBSCRIPT는 두 개의 구별되는(학습 가능한) 함수이다. 이러한 집합은 공간 좌표의 유클리드 변환 하에서 등분산임을 보여줄 수 있다. 𝐱usubscript𝐱𝑢\mathbf{x}_{u}bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT에 대한 𝐟usubscriptsuperscript𝐟𝑢\mathbf{f}^{\prime}_{u}bold_f start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT의 유일한 의존성은 거리 𝐱u𝐱v2superscriptnormsubscript𝐱𝑢subscript𝐱𝑣2\|\mathbf{x}_{u}-\mathbf{x}_{v}\|^{2}∥ bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT - bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT를 통해서이고, E(3)E3\mathrm{E}(3)roman_E ( 3 )의 작용은 반드시 노드 사이의 거리를 변화시키지 않게 하기 때문이다. 또한, 이러한 계층의 계산은 "메시지 전달" GNN 풍미의 특정 사례로 볼 수 있으므로 구현하기에 효율적이다.

요약하자면, 일반적인 GNN과 대조적으로, Satorras et al. (2021)는 그래프의 각 점에 대한 '좌표'의 올바른 처리를 가능하게 한다. 그들은 이제 E(3)E3\mathrm{E}(3)roman_E ( 3 ) 그룹의 멤버로 취급되며, 이는 네트워크 출력이 입력의 회전, 반사 및 변환 하에서 올바르게 동작한다는 것을 의미한다. 140140140140
While scalar features (heatmap) does not change under rotations, vector features (arrows) can change direction. 이전에 주어진 간단한 E(3)E3\mathrm{E}(3)roman_E ( 3 ) equivariant GNN은 이를 고려하지 않는다. 그러나, 𝐟usubscript𝐟𝑢\mathbf{f}_{u}bold_f start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT
The features, 𝐟usubscript𝐟𝑢\mathbf{f}_{u}bold_f start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT는 채널wise 방식으로 처리되고, 여전히 이러한 변환 하에서 변하지 않는 scalars로 가정된다. 이는 그러한 프레임워크 내에서 캡처될 수 있는 공간 정보의 유형을 제한한다. 예를 들어, 일부 특징이 vectors—e.g. 점 속도—이러한 변환 하에서 should 방향 전환으로 인코딩되는 것이 바람직할 수 있다. Satorras et al. (2021)는 그들의 아키텍처의 한 변형에서 속도의 개념을 도입함으로써 이 문제를 부분적으로 완화한다. Velocities는 적절하게 회전하는 각 점의 3차원 벡터 특성이다. 그러나, 이것은 E(3)E3\mathrm{E}(3)roman_E ( 3 ) equivariant network로 학습될 수 있는 일반적인 표현들의 작은 부분 공간일 뿐이다. 일반적으로 노드 특징은 잘 정의된 방식으로 E(3)E3\mathrm{E}(3)roman_E ( 3 )에 따라 여전히 변환될 임의 차원의 tensors을 인코딩할 수 있다.

따라서 위에서 논의한 아키텍처는 이미 많은 실제 입력 표현에 대해 우아한 등분산 솔루션을 제시하지만, 일부 경우에는 등분산 특성을 충족하는 함수의 광범위한 모음을 탐색하는 것이 바람직할 수 있다. 이러한 설정을 다루는 기존 방법은 두 가지 클래스로 분류할 수 있습니다. irreducible representations (이 중 이전에 언급한 계층은 단순화된 인스턴스임) 및 regular representations. 우리는 여기서 그들을 간략하게 조사하며 자세한 논의는 향후 작업에 맡긴다.

Irreducible representations

기약적 표현은 로토-번역 그룹의 모든 원소들이 기약적 형태로 만들어질 수 있다는 발견, 즉 블록 대각 행렬에 의해 회전되는 벡터를 기반으로 한다. 결정적으로, 이들 블록들 각각은 Wigner D-matrix (The aforementioned Fourier basis for Spherical CNNs). 이 우산 지도 아래의 접근법은 한 세트의 환원 불가능한 표현에서 등분산 커널을 사용하여 다른 표현으로 접근한다. 등분산 매핑의 전체 집합을 찾기 위해 이 커널에 대한 등분산 제약을 직접 해결할 수 있다. 솔루션은 Clebsch-Gordan 행렬 및 구형 고조파에 의해 유도된 등분산 기저 행렬의 선형 조합을 형성한다.

기약 표현 접근법의 초기 예는 Tensor Field Networks (Thomas et al., 2018) 및 3D Steerable CNNs (Weiler et al., 2018)를 포함하며, 둘 다 포인트 클라우드 상에서 동작하는 컨볼루션 모델이다. SE(3)SE3\mathrm{SE}(3)roman_SE ( 3 )-Fuchs et al. (2020)의 Transformer는 컨볼루션이 아닌 어텐션 레이어를 이용하여 이 프레임워크를 그래프 도메인으로 확장한다. 또한, 우리의 논의는 Satorras et al. (2021)의 특수 사례 솔루션에 초점을 맞추었지만, 그래프에 대한 회전 또는 번역 등분산 예측에 대한 동기는 역사적으로 포인트 클라우드에 대한 동적 그래프 CNN (Wang et al., 2019b)와 같은 아키텍처와 SchNet (Schütt et al., 2018) 및 DimeNet (Klicpera et al., 2020)와 같은 양자 화학에 대한 효율적인 메시지 전달 모델을 포함한 다른 분야에서 탐구되었음을 주목한다.

Regular representations

기약적 표상의 접근법은 매력적이지만, 지루할 수 있고 조밀한 그룹에만 적용할 수 있는 기본 그룹 표상에 대한 직접적인 추론을 필요로 한다. 정규 표현 접근법은 더 일반적이지만 추가 계산 부담이 있습니다. - 정확한 등분성을 위해 all 그룹 요소141141141This approach was, in fact, pioneered by the group convolutional neural networks we presented in previous sections.에 대한 잠재 기능 임베딩 사본을 저장해야 합니다.

이 공간에서 한 가지 유망한 접근법은 다양한 대칭 그룹에 걸친 신속한 프로토타이핑의 약속과 함께 지수 및 로그 맵의 정의를 통해 Lie 그룹에 대한 등분성을 관찰하는 것을 목표로 한다. Lie 그룹은 이 섹션의 범위를 벗어났지만 독자는 이 방향의 두 가지 최근 성공적인 인스턴스를 참조한다: Finzi et al. (2020)의 LieConv와 Hutchinson et al. (2020)의 LieTransformer.

이 섹션에서 다루는 접근법은 기본 기하학에 명시적으로 모호한 방식으로 기하학 그래프에 대한 데이터를 처리하는 일반적인 방법을 나타낸다. 4.6 섹션에서 논의된 바와 같이, meshes은 연속적인 표면의 이산화로 이해될 수 있는 기하학적 그래프의 특별한 인스턴스이다. 우리는 다음으로 메쉬별 등분산 신경망을 연구할 것이다.

5.6 Intrinsic Mesh CNNs

특히 삼각형 메쉬는 컴퓨터 그래픽의 '빵과 버터'이며 아마도 3D 객체를 모델링하는 가장 일반적인 방법이다. 딥러닝의 일반적인 성공과 특히 컴퓨터 비전에서 CNN의 놀라운 성공은 2010s 중반 주변의 그래픽 및 기하학 처리 커뮤니티에 대한 뜨거운 관심을 이끌었습니다. 결과 패치가 위상 디스크가 되기 위해서는 그 반지름 R𝑅Ritalic_R가 주입 반경보다 작아야 한다. to construct similar architecture for mesh data.

Geodesic patches

Most of the architectures for deep learning on meshes implement convolutional filters of the form (21) by discretising or approximating the exponential map and expressing the filter in a coordinate system of the tangent plane. Shooting a geodesic γ:[0,T]Ω:𝛾0𝑇Ω\gamma:[0,T]\rightarrow\Omegaitalic_γ : [ 0 , italic_T ] → roman_Ω from a point u=γ(0)𝑢𝛾0u=\gamma(0)italic_u = italic_γ ( 0 ) to nearby point v=γ(T)𝑣𝛾𝑇v=\gamma(T)italic_v = italic_γ ( italic_T ) defines a local system of geodesic polar coordinates (r(u,v),ϑ(u,v))𝑟𝑢𝑣italic-ϑ𝑢𝑣(r(u,v),\vartheta(u,v))( italic_r ( italic_u , italic_v ) , italic_ϑ ( italic_u , italic_v ) ) where r𝑟ritalic_r is the geodesic distance between u𝑢uitalic_u and v𝑣vitalic_v (length of the geodesic γ𝛾\gammaitalic_γ) and ϑitalic-ϑ\varthetaitalic_ϑ is the angle between γ(0)superscript𝛾0\gamma^{\prime}(0)italic_γ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( 0 ) and some local reference direction. This allows to define a geodesic patch x(u,r,ϑ)=x(expuω~(r,ϑ))𝑥𝑢𝑟italic-ϑ𝑥subscript𝑢~𝜔𝑟italic-ϑx(u,r,\vartheta)=x(\exp_{u}\tilde{\omega}(r,\vartheta))italic_x ( italic_u , italic_r , italic_ϑ ) = italic_x ( roman_exp start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT over~ start_ARG italic_ω end_ARG ( italic_r , italic_ϑ ) ), where ω~u:[0,R]×[0,2π)TuΩ:subscript~𝜔𝑢0𝑅02𝜋subscript𝑇𝑢Ω\tilde{\omega}_{u}:[0,R]\times[0,2\pi)\rightarrow T_{u}\Omegaover~ start_ARG italic_ω end_ARG start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT : [ 0 , italic_R ] × [ 0 , 2 italic_π ) → italic_T start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT roman_Ω is the local polar frame.

표면143143143 [Uncaptioned image] Construction of discrete geodesics on a mesh. discretised as a mesh, a geodesic is a poly-line to traversed the triangular faces. 전통적으로 측지학은 고속 마칭 알고리즘 Kimmel and Sethian (1998), eikonal equation이라는 비선형 PDE의 효율적인 수치 근사를 사용하여 계산되었습니다. 이 스킴은 로컬 지오데식 패치 계산을 위해 Kokkinos et al. (2012)에 의해 적응되었고 나중에 메쉬 상의 최초의 고유 CNN 유사 아키텍처인 Geodesic CNNs의 구성을 위해 Masci et al. (2015)에 의해 재사용되었다.

Isotropic filters

중요한 것은 측지 패치의 정의에서 참조 방향과 패치 방향의 선택에 모호성이 있다는 것이다. 이것은 정확히 게이지 선택의 모호성이며, 우리의 국소 좌표계는 임의의 회전(또는 각도 좌표의 시프트, x(u,r,ϑ+ϑ0)𝑥𝑢𝑟italic-ϑsubscriptitalic-ϑ0x(u,r,\vartheta+\vartheta_{0})italic_x ( italic_u , italic_r , italic_ϑ + italic_ϑ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ))까지 정의되며, 이는 모든 노드에서 다를 수 있다. 아마도 가장 간단한 해결책은 이웃 피처들의 방향-독립적 집계를 수행하는 형태 θ(r)𝜃𝑟\theta(r)italic_θ ( italic_r )의 등방성 필터들을 사용하는 것이고,

(xθ)(u)=0R02πx(u,r,ϑ)θ(r)drdϑ.𝑥𝜃𝑢superscriptsubscript0𝑅superscriptsubscript02𝜋𝑥𝑢𝑟italic-ϑ𝜃𝑟differential-d𝑟differential-ditalic-ϑ(x\star\theta)(u)=\int_{0}^{R}\int_{0}^{2\pi}x(u,r,\vartheta)\theta(r)\mathrm{d}r\mathrm{d}\vartheta.( italic_x ⋆ italic_θ ) ( italic_u ) = ∫ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_R end_POSTSUPERSCRIPT ∫ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 italic_π end_POSTSUPERSCRIPT italic_x ( italic_u , italic_r , italic_ϑ ) italic_θ ( italic_r ) roman_d italic_r roman_d italic_ϑ .

섹션 4.44.6에서 논의된 스펙트럼 필터는 이 범주에 속한다: 이들은 등방성인 라플라시안 연산자를 기반으로 한다. 그러나, 이러한 방법은 중요한 방향성 정보를 폐기하고, 에지-유사 특징을 추출하는데 실패할 수 있다.

Fixed gauge

우리가 Section 4.4에서 이미 암시했던 대안은 fix some gauge이다. Monti et al. (2017)는 주요 곡률 방향을 사용했는데, 이 선택은 고유하지 않고 평평한 점(곡률이 사라지는 곳)이나 균일한 곡률(완벽한 구와 같은)에서 모호할 수 있지만, 저자들은 변형 가능한 인체 형상을 다루는 것이 대략 단편적으로 단단한 것으로 합리적인 것으로 나타났다. Melzi et al. (2019)와 같은 후속 연구에서는 고유 함수의 (intrinsic) 기울기로 계산되는 메시 상의 게이지의 신뢰할 수 있는 고유 구성을 보여주었다. 이러한 접선 필드는 특이점을 가질 수 있지만(즉, 일부 지점에서 사라짐), 전체 절차는 노이즈 및 리메싱에 매우 강력하다.

Angular pooling

angular max pooling으로 지칭되는 다른 접근법은 Masci et al. (2015)에 의해 사용되었다. 이 경우, 필터 θ(r,ϑ)𝜃𝑟italic-ϑ\theta(r,\vartheta)italic_θ ( italic_r , italic_ϑ )는 이방성이지만, 함수와의 매칭은 all the possible rotations을 통해 수행되며, 이는 이후 집계된다:

(xθ)(u)=maxϑ0[0,2π)0R02πx(u,r,ϑ)θ(r,ϑ+ϑ0)drdϑ.𝑥𝜃𝑢subscriptsubscriptitalic-ϑ002𝜋superscriptsubscript0𝑅superscriptsubscript02𝜋𝑥𝑢𝑟italic-ϑ𝜃𝑟italic-ϑsubscriptitalic-ϑ0differential-d𝑟differential-ditalic-ϑ(x\star\theta)(u)=\max_{\vartheta_{0}\in[0,2\pi)}\,\,\int_{0}^{R}\int_{0}^{2\pi}x(u,r,\vartheta)\theta(r,\vartheta+\vartheta_{0})\mathrm{d}r\mathrm{d}\vartheta.( italic_x ⋆ italic_θ ) ( italic_u ) = roman_max start_POSTSUBSCRIPT italic_ϑ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ∈ [ 0 , 2 italic_π ) end_POSTSUBSCRIPT ∫ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_R end_POSTSUPERSCRIPT ∫ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 italic_π end_POSTSUPERSCRIPT italic_x ( italic_u , italic_r , italic_ϑ ) italic_θ ( italic_r , italic_ϑ + italic_ϑ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) roman_d italic_r roman_d italic_ϑ .

개념적으로 이것은 측지선 패치를 회전 필터와 상관시키고 가장 강한 응답을 수집하는 것으로 시각화할 수 있다.

On meshes, the continuous integrals can be discretised using a construction referred to as patch operators (Masci et al., 2015). In a geodesic patch around node u𝑢uitalic_u, the neighbour nodes 𝒩usubscript𝒩𝑢\mathcal{N}_{u}caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT,144144144Typically multi-hop neighbours are used. represented in the local polar coordinates as (ruv,ϑuv)subscript𝑟𝑢𝑣subscriptitalic-ϑ𝑢𝑣(r_{uv},\vartheta_{uv})( italic_r start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT , italic_ϑ start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT ), are weighted by a set of weighting functions w1(r,ϑ),,wK(r,ϑ)subscript𝑤1𝑟italic-ϑsubscript𝑤𝐾𝑟italic-ϑw_{1}(r,\vartheta),\ldots,w_{K}(r,\vartheta)italic_w start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ( italic_r , italic_ϑ ) , … , italic_w start_POSTSUBSCRIPT italic_K end_POSTSUBSCRIPT ( italic_r , italic_ϑ ) (shown in Figure 18 and acting as ‘soft pixels’) and aggregated,

(xθ)u=k=1Kwkv𝒩u(ruv,ϑuv)xvθkk=1Kwkv𝒩u(ruv,ϑuv)θksubscript𝑥𝜃𝑢superscriptsubscript𝑘1𝐾subscript𝑤𝑘subscript𝑣subscript𝒩𝑢subscript𝑟𝑢𝑣subscriptitalic-ϑ𝑢𝑣subscript𝑥𝑣subscript𝜃𝑘superscriptsubscript𝑘1𝐾subscript𝑤𝑘subscript𝑣subscript𝒩𝑢subscript𝑟𝑢𝑣subscriptitalic-ϑ𝑢𝑣subscript𝜃𝑘(x\star\theta)_{u}=\frac{\sum_{k=1}^{K}w_{k}\sum_{v\in\mathcal{N}_{u}}(r_{uv},\vartheta_{uv})x_{v}\,\theta_{k}}{\sum_{k=1}^{K}w_{k}\sum_{v\in\mathcal{N}_{u}}(r_{uv},\vartheta_{uv})\theta_{k}}( italic_x ⋆ italic_θ ) start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = divide start_ARG ∑ start_POSTSUBSCRIPT italic_k = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_K end_POSTSUPERSCRIPT italic_w start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ∑ start_POSTSUBSCRIPT italic_v ∈ caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT end_POSTSUBSCRIPT ( italic_r start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT , italic_ϑ start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT ) italic_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT italic_θ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT end_ARG start_ARG ∑ start_POSTSUBSCRIPT italic_k = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_K end_POSTSUPERSCRIPT italic_w start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ∑ start_POSTSUBSCRIPT italic_v ∈ caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT end_POSTSUBSCRIPT ( italic_r start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT , italic_ϑ start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT ) italic_θ start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT end_ARG

(여기서 θ1,,θKsubscript𝜃1subscript𝜃𝐾\theta_{1},\ldots,\theta_{K}italic_θ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , italic_θ start_POSTSUBSCRIPT italic_K end_POSTSUBSCRIPT는 필터의 학습 가능한 계수이다.) 다중 채널 기능은 적절한 필터 패밀리로 채널별로 처리됩니다. Masci et al. (2015); Boscaini et al. (2016a)는 미리 정의된 가중 함수 w𝑤witalic_w를 사용한 반면, Monti et al. (2017)는 학습 가능하도록 추가로 허용하였다.

Refer to caption
도 18: Left-to-right: Geodesic CNN (Masci et al., 2015), Anisotropic CNN (Boscaini et al., 2016b) 및 MoNet (Monti et al., 2017), 가중 함수 wk(r,ϑ)subscript𝑤𝑘𝑟italic-ϑw_{k}(r,\vartheta)italic_w start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ( italic_r , italic_ϑ )의 레벨 세트가 빨간색으로 표시된다.

Gauge-equivariant filters

등방성 필터와 angular max pooling 모두 invariant to gauge transformations; 그들은 trivial representation ρ(𝔤)=1𝜌𝔤1\rho({\mathfrak{g}})=1italic_ρ ( fraktur_g ) = 1에 따라 변환한다(여기서 𝔤SO(2)𝔤SO2{\mathfrak{g}}\in\mathrm{SO}(2)fraktur_g ∈ roman_SO ( 2 )는 로컬 좌표 프레임의 회전이다). 이 관점은 Cohen et al. (2019); de Haan et al. (2020)에 의해 제안되고 섹션 4.5에서 논의되는 또 다른 접근법을 제안하며, 여기서 네트워크에 의해 계산된 특징들은 구조 그룹 𝔊𝔊{\mathfrak{G}}fraktur_G의 임의의 표현 ρ𝜌\rhoitalic_ρ와 연관된다(예를 들어, SO(2)SO2\mathrm{SO(2)}roman_SO ( 2 ) 또는 O(2)O2\mathrm{O(2)}roman_O ( 2 )의 회전 또는 회전+좌표 프레임의 반사). 탄젠트 벡터들은 표준 표현 ρ(𝔤)=𝔤𝜌𝔤𝔤\rho({\mathfrak{g}})={\mathfrak{g}}italic_ρ ( fraktur_g ) = fraktur_g에 따라 변환된다. 다른 예로서, 동일한 필터의 n𝑛nitalic_n 회전된 복사본들을 게이지의 회전 하에서 순환 시프트에 의해 매칭시킴으로써 얻어지는 특징 벡터는; 이것은 순환 그룹 Cnsubscript𝐶𝑛C_{n}italic_C start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT의 정규 표현으로 알려져 있다.

섹션 4.5에서 논의된 바와 같이, 그러한 기하학적 특징(비-사소한 표현과 연관됨)을 다룰 때, 우리는 먼저 필터를 적용하기 전에 이들을 동일한 벡터 공간으로 병렬 수송해야 한다. 메쉬 상에서, 이는 de Haan et al. (2020)에 의해 기술된 다음의 메시지 전달 메커니즘을 통해 구현될 수 있다. 𝐱udsubscript𝐱𝑢superscript𝑑\mathbf{x}_{u}\in\mathbb{R}^{d}bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_d end_POSTSUPERSCRIPTd𝑑ditalic_d-dimensional input feature at mesh node u𝑢uitalic_u라고 하자. 이 특징은 u𝑢uitalic_u에서 게이지의 (임의) 선택에 대해 표현되며, 게이지의 회전 하에서 𝔊=SO(2)𝔊SO2{\mathfrak{G}}=\operatorname{SO}(2)fraktur_G = roman_SO ( 2 )의 표현 ρinsubscript𝜌in\rho_{\textup{in}}italic_ρ start_POSTSUBSCRIPT in end_POSTSUBSCRIPT에 따라 변환된다고 가정한다. 마찬가지로, 메시 컨볼루션의 출력 특징들 𝐡usubscript𝐡𝑢\mathbf{h}_{u}bold_h start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPTdsuperscript𝑑d^{\prime}italic_d start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT 차원이고, ρoutsubscript𝜌out\rho_{\textup{out}}italic_ρ start_POSTSUBSCRIPT out end_POSTSUBSCRIPT에 따라 변환해야 한다(이는 네트워크 설계자에 의해 마음대로 선택될 수 있다).

그래프 신경망에 대한 유추에 의해, 우리는 u𝑢uitalic_u의 이웃들 𝒩usubscript𝒩𝑢\mathcal{N}_{u}caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT(및 u𝑢uitalic_u 자체로부터>u𝑢uitalic_u>의 메시지들을 전송함으로써 메쉬들 상에서 게이지-equivariant convolution (23)를 구현할 수 있다:

𝐡u=𝚯self𝐱u+v𝒩u𝚯neigh(ϑuv)ρ(𝔤vu)𝐱v,subscript𝐡𝑢subscript𝚯selfsubscript𝐱𝑢subscript𝑣subscript𝒩𝑢subscript𝚯neighsubscriptitalic-ϑ𝑢𝑣𝜌subscript𝔤𝑣𝑢subscript𝐱𝑣\mathbf{h}_{u}=\bm{\Theta}_{\textup{self}}\;\mathbf{x}_{u}+\sum_{v\in\mathcal{N}_{u}}\bm{\Theta}_{\textup{neigh}}(\vartheta_{uv})\rho({\mathfrak{g}}_{v\rightarrow u})\mathbf{x}_{v},bold_h start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT = bold_Θ start_POSTSUBSCRIPT self end_POSTSUBSCRIPT bold_x start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT + ∑ start_POSTSUBSCRIPT italic_v ∈ caligraphic_N start_POSTSUBSCRIPT italic_u end_POSTSUBSCRIPT end_POSTSUBSCRIPT bold_Θ start_POSTSUBSCRIPT neigh end_POSTSUBSCRIPT ( italic_ϑ start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT ) italic_ρ ( fraktur_g start_POSTSUBSCRIPT italic_v → italic_u end_POSTSUBSCRIPT ) bold_x start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT , (37)

where 𝚯self,𝚯neigh(ϑuv)d×dsubscript𝚯selfsubscript𝚯neighsubscriptitalic-ϑ𝑢𝑣superscriptsuperscript𝑑𝑑\bm{\Theta}_{\textup{self}},\bm{\Theta}_{\textup{neigh}}(\vartheta_{uv})\in\mathbb{R}^{d^{\prime}\times d}bold_Θ start_POSTSUBSCRIPT self end_POSTSUBSCRIPT , bold_Θ start_POSTSUBSCRIPT neigh end_POSTSUBSCRIPT ( italic_ϑ start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT ) ∈ blackboard_R start_POSTSUPERSCRIPT italic_d start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT × italic_d end_POSTSUPERSCRIPT are learned filter matrices. The structure group element 𝔤vuSO(2)subscript𝔤𝑣𝑢SO2{\mathfrak{g}}_{v\rightarrow u}\in\operatorname{SO}(2)fraktur_g start_POSTSUBSCRIPT italic_v → italic_u end_POSTSUBSCRIPT ∈ roman_SO ( 2 ) denotes the effect of parallel transport from v𝑣vitalic_v to u𝑢uitalic_u, expressed relative to the gauges at u𝑢uitalic_u and v𝑣vitalic_v, and can be precomputed for each mesh. Its action is encoded by a transporter matrix ρ(𝔤vu)d×d𝜌subscript𝔤𝑣𝑢superscript𝑑𝑑\rho({\mathfrak{g}}_{v\rightarrow u})\in\mathbb{R}^{d\times d}italic_ρ ( fraktur_g start_POSTSUBSCRIPT italic_v → italic_u end_POSTSUBSCRIPT ) ∈ blackboard_R start_POSTSUPERSCRIPT italic_d × italic_d end_POSTSUPERSCRIPT.145145145Note that d𝑑ditalic_d is the feature dimension and is not necessarily equal to 2, the dimension of the mesh. The matrix 𝚯neigh(ϑuv)subscript𝚯neighsubscriptitalic-ϑ𝑢𝑣\bm{\Theta}_{\textup{neigh}}(\vartheta_{uv})bold_Θ start_POSTSUBSCRIPT neigh end_POSTSUBSCRIPT ( italic_ϑ start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT ) depends on the angle ϑuvsubscriptitalic-ϑ𝑢𝑣\vartheta_{uv}italic_ϑ start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT of the neighbour v𝑣vitalic_v to the reference direction (e.g. first axis of the frame) at u𝑢uitalic_u, so this kernel is anisotropic: different neighbours are treated differently.

As explained in Section 4.5, for 𝐡(u)𝐡𝑢\mathbf{h}(u)bold_h ( italic_u ) to be a well-defined geometric quantity, it should transform as 𝐡(u)ρout(𝔤1(u))𝐡(u)maps-to𝐡𝑢subscript𝜌outsuperscript𝔤1𝑢𝐡𝑢\mathbf{h}(u)\mapsto\rho_{\textup{out}}({\mathfrak{g}}^{-1}(u))\mathbf{h}(u)bold_h ( italic_u ) ↦ italic_ρ start_POSTSUBSCRIPT out end_POSTSUBSCRIPT ( fraktur_g start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ( italic_u ) ) bold_h ( italic_u ) under gauge transformations. This will be the case when 𝚯selfρin(ϑ)=ρout(ϑ)𝚯selfsubscript𝚯selfsubscript𝜌initalic-ϑsubscript𝜌outitalic-ϑsubscript𝚯self\bm{\Theta}_{\textup{self}}\rho_{\textup{in}}(\vartheta)=\rho_{\textup{out}}(\vartheta)\bm{\Theta}_{\textup{self}}bold_Θ start_POSTSUBSCRIPT self end_POSTSUBSCRIPT italic_ρ start_POSTSUBSCRIPT in end_POSTSUBSCRIPT ( italic_ϑ ) = italic_ρ start_POSTSUBSCRIPT out end_POSTSUBSCRIPT ( italic_ϑ ) bold_Θ start_POSTSUBSCRIPT self end_POSTSUBSCRIPT for all ϑSO(2)italic-ϑSO2\vartheta\in\operatorname{SO}(2)italic_ϑ ∈ roman_SO ( 2 ),146146146Here we abuse the notation, identifying 2D rotations with angles ϑitalic-ϑ\varthetaitalic_ϑ. and 𝚯neigh(ϑuvϑ)ρin(ϑ)=ρout(ϑ)𝚯neigh(ϑuv)subscript𝚯neighsubscriptitalic-ϑ𝑢𝑣italic-ϑsubscript𝜌initalic-ϑsubscript𝜌outitalic-ϑsubscript𝚯neighsubscriptitalic-ϑ𝑢𝑣\bm{\Theta}_{\textup{neigh}}(\vartheta_{uv}-\vartheta)\rho_{\textup{in}}(\vartheta)=\rho_{\textup{out}}(\vartheta)\bm{\Theta}_{\textup{neigh}}(\vartheta_{uv})bold_Θ start_POSTSUBSCRIPT neigh end_POSTSUBSCRIPT ( italic_ϑ start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT - italic_ϑ ) italic_ρ start_POSTSUBSCRIPT in end_POSTSUBSCRIPT ( italic_ϑ ) = italic_ρ start_POSTSUBSCRIPT out end_POSTSUBSCRIPT ( italic_ϑ ) bold_Θ start_POSTSUBSCRIPT neigh end_POSTSUBSCRIPT ( italic_ϑ start_POSTSUBSCRIPT italic_u italic_v end_POSTSUBSCRIPT ). Since these constraints are linear, the space of matrices 𝚯selfsubscript𝚯self\bm{\Theta}_{\textup{self}}bold_Θ start_POSTSUBSCRIPT self end_POSTSUBSCRIPT and matrix-valued functions 𝚯neighsubscript𝚯neigh\bm{\Theta}_{\textup{neigh}}bold_Θ start_POSTSUBSCRIPT neigh end_POSTSUBSCRIPT satisfying these constraints is a linear subspace, and so we can parameterise them as a linear combination of basis kernels with learnable coefficients: 𝚯self=iαi𝚯selfisubscript𝚯selfsubscript𝑖subscript𝛼𝑖superscriptsubscript𝚯self𝑖\bm{\Theta}_{\textup{self}}=\sum_{i}\alpha_{i}\bm{\Theta}_{\textup{self}}^{i}bold_Θ start_POSTSUBSCRIPT self end_POSTSUBSCRIPT = ∑ start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT italic_α start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT bold_Θ start_POSTSUBSCRIPT self end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT and 𝚯neigh=iβi𝚯neighisubscript𝚯neighsubscript𝑖subscript𝛽𝑖superscriptsubscript𝚯neigh𝑖\bm{\Theta}_{\textup{neigh}}=\sum_{i}\beta_{i}\bm{\Theta}_{\textup{neigh}}^{i}bold_Θ start_POSTSUBSCRIPT neigh end_POSTSUBSCRIPT = ∑ start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT italic_β start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT bold_Θ start_POSTSUBSCRIPT neigh end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT.

5.7 Recurrent Neural Networks

우리의 논의는 지금까지 입력이 주어진 도메인에 걸쳐 오직 spatial이라고 항상 가정했다. 그러나, 많은 일반적인 사용 사례에서, 입력은 또한 sequential (예를 들어, 비디오, 텍스트 또는 음성)으로 간주될 수 있다. 이 경우, 입력이 임의로 많은 steps으로 구성된다고 가정하며, 여기서 각 단계 t𝑡titalic_t에는 입력 신호가 제공되며, 이는 𝐗(t)𝒳(Ω(t))superscript𝐗𝑡𝒳superscriptΩ𝑡\mathbf{X}^{(t)}\in\mathcal{X}(\Omega^{(t)})bold_X start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ∈ caligraphic_X ( roman_Ω start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT )로 표현된다. 147147147Whether the domain is considered static or dynamic concerns time scales: e.g., a road network does change over time (as new roads are built and old ones are demolished), but significantly slower compared to the flow of traffic. Similarly, in social networks, changes in engagement (e.g. Twitter users re-tweeting a tweet) happen at a much higher frequency than changes in the follow graph.

일반적으로 도메인은 그 위의 신호와 함께 시간적으로 진화할 수 있지만, 일반적으로 도메인이 모든 t𝑡titalic_t, 즉 Ω(t)=ΩsuperscriptΩ𝑡Ω\Omega^{(t)}=\Omegaroman_Ω start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT = roman_Ω에 걸쳐 고정된 상태로 유지된다고 가정한다. 여기서는 이 경우를 배타적으로 중심으로 살펴보겠지만 예외는 흔하다는 점에 유의한다. 소셜 네트워크는 새로운 링크가 정기적으로 생성되고 삭제되기 때문에 시간이 지남에 따라 변화하는 도메인에 대해 종종 설명해야 하는 예이다. 이 설정의 도메인은 종종 dynamic graph (Xu et al., 2020a; Rossi et al., 2020)로 지칭된다.

종종, 개별 𝐗(t)superscript𝐗𝑡\mathbf{X}^{(t)}bold_X start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT 입력은 유용한 대칭을 나타낼 것이고, 따라서 이전에 논의된 아키텍처 중 임의의 것에 의해 비공개적으로 처리될 수 있다. 일부 일반적인 예는 다음과 같습니다. videos (ΩΩ\Omegaroman_Ω는 고정 그리드이고, 신호는 frames); fMRI 스캔 (ΩΩ\Omegaroman_Ω is a fixed mesh is a fixed traffic flow networks (

encoder function f(𝐗(t))𝑓superscript𝐗𝑡f(\mathbf{X}^{(t)})italic_f ( bold_X start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ) providing latent representations at level of granularity appropriate and respectful of the symmetries of the problem. 예로서 148148148We don't lose generalality in our example; equivalent analysis can be done for node-level outputs on a spatiotemporal graph; only difference is the choice of encoder f𝑓fitalic_f (which will be a permutation equivariant GNN). 은 비디오 프레임을 처리하는 것을 고려합니다. 즉, 각 타임스탬프에서 grid-structured inputn×d𝑛𝑑n\times ditalic_n × italic_d matrix 𝐗(t)superscript𝐗𝑡\mathbf{X}^{(t)}bold_X start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT로 표시되며, 여기서 n𝑛nitalic_n는 픽셀의 수(시간에 고정됨)이고 d𝑑ditalic_d는 입력 채널의 수(예: RGB 프레임에 대해 d=3𝑑3d=3italic_d = 3)입니다. 또한, 전체 프레임 레벨에서의 분석에 관심이 있으며, 이 경우 시간-단계 t𝑡titalic_t에서 프레임의 k𝑘kitalic_k-차원 표현 𝐳(t)=f(𝐗(t))superscript𝐳𝑡𝑓superscript𝐗𝑡\mathbf{z}^{(t)}=f(\mathbf{X}^{(t)})bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT = italic_f ( bold_X start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT )를 출력하는 번역 불변 CNN으로 f𝑓fitalic_f를 구현하는 것이 적절하다.

이제 적절한 summarising a sequence of vectors 𝐳(t)superscript𝐳𝑡\mathbf{z}^{(t)}bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT across all steps. dynamically은 입력의 시간적 진행을 존중하고 또한 쉽게 online 새로운 데이터-포인트의 도착을 허용하는 방식으로 이 정보를 집계합니다. 149149149149Note that the 𝐳(t)superscript𝐳𝑡\mathbf{z}^{(t)}bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT vectors can be points on a temporal grid: thus, processing them with a CNN is also viable in some cases. 트랜스포머는 또한 일반 순차 입력을 처리하기 위해 점점 더 인기 있는 모델이다. 여기서 보여드릴 것은 RNN이 입력 𝐳(t)superscript𝐳𝑡\mathbf{z}^{(t)}bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT에 걸쳐 다소 특이한 형태의 대칭을 구현하기 때문에 그 자체로 연구하기에 흥미로운 기하학적 구조라는 것입니다.

SimpleRNNs

Refer to caption
Figure 19:Illustration of processing video input with RNNs. 각 입력 비디오 프레임 𝐗(t)superscript𝐗𝑡\mathbf{X}^{(t)}bold_X start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT는 공유 함수 f𝑓fitalic_f - 예를 들어 번역 불변 CNN - 평면 표현 𝐳(t)superscript𝐳𝑡\mathbf{z}^{(t)}bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT를 사용하여 처리된다. 그런 다음, RNN 갱신 함수 R𝑅Ritalic_R가 이들 벡터에 걸쳐 반복되어, 𝐳(t)superscript𝐳𝑡\mathbf{z}^{(t)}bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT까지를 포함하여 모든 입력을 요약하는 요약 벡터 𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT를 반복 갱신한다. 계산에는 사전 결정되거나 학습 가능할 수 있는 초기 요약 벡터 𝐡(0)superscript𝐡0\mathbf{h}^{(0)}bold_h start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT가 시드된다.

각 단계에서 순환 신경망은 m𝑚mitalic_m-dimensional summary vector 𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT까지의 모든 입력 단계와 t𝑡titalic_t를 포함한다. 이 (부분) 요약은 공유된 update 함수, R:k×mm:𝑅superscript𝑘superscript𝑚superscript𝑚R:\mathbb{R}^{k}\times\mathbb{R}^{m}\rightarrow\mathbb{R}^{m}italic_R : blackboard_R start_POSTSUPERSCRIPT italic_k end_POSTSUPERSCRIPT × blackboard_R start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT → blackboard_R start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT, 다음과 같이 현재 단계의 특징과 이전 단계의 요약에 대해 조건부로 계산된다(요약을 위해 그림 19 참조):

𝐡(t)=R(𝐳(t),𝐡(t1))superscript𝐡𝑡𝑅superscript𝐳𝑡superscript𝐡𝑡1\mathbf{h}^{(t)}=R(\mathbf{z}^{(t)},\mathbf{h}^{(t-1)})bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT = italic_R ( bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT ) (38)

그리고, 𝐳(t)superscript𝐳𝑡\mathbf{z}^{(t)}bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT𝐡(t1)superscript𝐡𝑡1\mathbf{h}^{(t-1)}bold_h start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT 모두 flat 벡터 표현으로서, R𝑅Ritalic_R는 단일 완전 연결 신경망 계층으로 가장 쉽게 표현될 수 있다(종종 SimpleRNN150150150In spite of their name, SimpleRNNs are remarkably expressive. For example, it was shown by Siegelmann and Sontag (1995) that such models are Turing-complete, meaning that they can likely represent any computation we may ever be able to execute on computers.; see Elman (1990); Jordan (1997)):

𝐡(t)=σ(𝐖𝐳(t)+𝐔𝐡(t1)+𝐛)superscript𝐡𝑡𝜎superscript𝐖𝐳𝑡superscript𝐔𝐡𝑡1𝐛\mathbf{h}^{(t)}=\sigma(\mathbf{W}\mathbf{z}^{(t)}+\mathbf{U}\mathbf{h}^{(t-1)}+\mathbf{b})bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT = italic_σ ( bold_Wz start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT + bold_Uh start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT + bold_b ) (39)

여기서 𝐖k×m𝐖superscript𝑘𝑚\mathbf{W}\in\mathbb{R}^{k\times m}bold_W ∈ blackboard_R start_POSTSUPERSCRIPT italic_k × italic_m end_POSTSUPERSCRIPT, 𝐔m×m𝐔superscript𝑚𝑚\mathbf{U}\in\mathbb{R}^{m\times m}bold_U ∈ blackboard_R start_POSTSUPERSCRIPT italic_m × italic_m end_POSTSUPERSCRIPT𝐛m𝐛superscript𝑚\mathbf{b}\in\mathbb{R}^{m}bold_b ∈ blackboard_R start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT는 학습 가능한 파라미터이고, σ𝜎\sigmaitalic_σ는 활성화 함수이다. 이것은 네트워크의 계산 그래프에서 loops을 도입하지만, 실제로 네트워크는 적절한 수의 단계에 대해 언롤링되어, 적용될 backpropagation through time (Robinson and Fallside, 1987; Werbos, 1988; Mozer, 1989)를 허용한다.

그런 다음 요약 벡터는 다운스트림 작업에 적절하게 레버리지될 수 있습니다. 시퀀스의 모든 단계에서 예측이 필요한 경우 공유 예측자가 각 𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT에 개별적으로 적용될 수 있습니다. 전체 시퀀스를 분류하기 위해, 전형적으로 최종 요약, 𝐡(T)superscript𝐡𝑇\mathbf{h}^{(T)}bold_h start_POSTSUPERSCRIPT ( italic_T ) end_POSTSUPERSCRIPT는 분류기로 전달된다. 여기서, T𝑇Titalic_T는 시퀀스의 길이이다.

특히, 초기 요약 벡터는 보통 제로 벡터, 즉 𝐡(0)=𝟎superscript𝐡00\mathbf{h}^{(0)}=\mathbf{0}bold_h start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT = bold_0로 설정되거나, 학습 가능하게 된다. 초기 요약 벡터가 설정되는 방식을 분석하면 RNN이 나타내는 translation equivariance의 흥미로운 형태를 추론할 수 있다.

Translation equivariance in RNNs

개별 단계 t𝑡titalic_tdiscrete time-steps로 해석하기 때문에, 입력 벡터 𝐳(t)superscript𝐳𝑡\mathbf{z}^{(t)}bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT는 one-dimensional 151151151Note that this construction is extendable to grids in higher dimensions, allowing us to, e.g., process signals living on images in a scanline fashion. Such a construction powered a popular series of models, such as the PixelRNN from van den Oord et al. (2016b).grid of time-steps에 살아있는 것으로 볼 수 있다. 여기에서 CNN에서 번역 등분산 분석을 확장하려는 시도는 매력적일 수 있지만 사소한 방식으로 수행할 수는 없다.

To see why, let us assume that we have produced a new sequence 𝐳(t)=𝐳(t+1)superscript𝐳𝑡superscript𝐳𝑡1\mathbf{z}^{\prime(t)}=\mathbf{z}^{(t+1)}bold_z start_POSTSUPERSCRIPT ′ ( italic_t ) end_POSTSUPERSCRIPT = bold_z start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT by performing a left-shift of our sequence by one step. It might be tempting to attempt showing 𝐡(t)=𝐡(t+1)superscript𝐡𝑡superscript𝐡𝑡1\mathbf{h}^{\prime(t)}=\mathbf{h}^{(t+1)}bold_h start_POSTSUPERSCRIPT ′ ( italic_t ) end_POSTSUPERSCRIPT = bold_h start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT, as one expects with translation equivariance; however, this will not generally hold. Consider t=1𝑡1t=1italic_t = 1; directly applying and expanding the update function, we recover the following:

𝐡(1)superscript𝐡1\displaystyle\mathbf{h}^{\prime(1)}bold_h start_POSTSUPERSCRIPT ′ ( 1 ) end_POSTSUPERSCRIPT =R(𝐳(1),𝐡(0))=R(𝐳(2),𝐡(0))absent𝑅superscript𝐳1superscript𝐡0𝑅superscript𝐳2superscript𝐡0\displaystyle=R(\mathbf{z}^{\prime(1)},\mathbf{h}^{(0)})=R(\mathbf{z}^{(2)},\mathbf{h}^{(0)})= italic_R ( bold_z start_POSTSUPERSCRIPT ′ ( 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT ) = italic_R ( bold_z start_POSTSUPERSCRIPT ( 2 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT ) (40)
𝐡(2)superscript𝐡2\displaystyle\mathbf{h}^{(2)}bold_h start_POSTSUPERSCRIPT ( 2 ) end_POSTSUPERSCRIPT =R(𝐳(2),𝐡(1))=R(𝐳(2),R(𝐳(1),𝐡(0)))absent𝑅superscript𝐳2superscript𝐡1𝑅superscript𝐳2𝑅superscript𝐳1superscript𝐡0\displaystyle=R(\mathbf{z}^{(2)},\mathbf{h}^{(1)})=R(\mathbf{z}^{(2)},R(\mathbf{z}^{(1)},\mathbf{h}^{(0)}))= italic_R ( bold_z start_POSTSUPERSCRIPT ( 2 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( 1 ) end_POSTSUPERSCRIPT ) = italic_R ( bold_z start_POSTSUPERSCRIPT ( 2 ) end_POSTSUPERSCRIPT , italic_R ( bold_z start_POSTSUPERSCRIPT ( 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT ) ) (41)

Hence, unless we can guarantee that 𝐡(0)=R(𝐳(1),𝐡(0))superscript𝐡0𝑅superscript𝐳1superscript𝐡0\mathbf{h}^{(0)}=R(\mathbf{z}^{(1)},\mathbf{h}^{(0)})bold_h start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT = italic_R ( bold_z start_POSTSUPERSCRIPT ( 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT ), we will not recover translation equivariance. Similar analysis can then be done for steps t>1𝑡1t>1italic_t > 1.

다행히도, 우리가 𝐳𝐳\mathbf{z}bold_z를 나타내는 방법에 대한 약간의 리팩토링과, R𝑅Ritalic_R의 적절한 선택에 대해, 위의 동등성을 만족시키는 것이 가능하고, 따라서 RNN이 시프트에 대해 등분산인 설정을 입증한다. 우리의 문제는 크게 boundary conditions: 위의 동일성은 왼쪽 시프트 작업이 파괴된 𝐳(1)superscript𝐳1\mathbf{z}^{(1)}bold_z start_POSTSUPERSCRIPT ( 1 ) end_POSTSUPERSCRIPT를 포함합니다. 이 문제를 추상화하기 위해, 우리는 RNN이 다음과 같이 정의된 적절하게 left-padded 시퀀스, 𝐳¯(t)superscript¯𝐳𝑡\bar{\mathbf{z}}^{(t)}over¯ start_ARG bold_z end_ARG start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT를 처리하는 방법을 관찰할 것이다.

𝐳¯(t)={𝟎tt𝐳(tt)t>tsuperscript¯𝐳𝑡cases0𝑡superscript𝑡superscript𝐳𝑡superscript𝑡𝑡superscript𝑡\bar{\mathbf{z}}^{(t)}=\begin{cases}\mathbf{0}&t\leq t^{\prime}\\ \mathbf{z}^{(t-t^{\prime})}&t>t^{\prime}\end{cases}over¯ start_ARG bold_z end_ARG start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT = { start_ROW start_CELL bold_0 end_CELL start_CELL italic_t ≤ italic_t start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT end_CELL end_ROW start_ROW start_CELL bold_z start_POSTSUPERSCRIPT ( italic_t - italic_t start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ) end_POSTSUPERSCRIPT end_CELL start_CELL italic_t > italic_t start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT end_CELL end_ROW

이러한 시퀀스는 이제 왼쪽-shifting152152152152Note 우리가 𝟎0\mathbf{0}bold_0와 다른 패딩 벡터를 사용하는 경우 동등한 분석이 발생할 것이다. by to the tsuperscript𝑡t^{\prime}italic_t start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT steps without any of the original input elements. 또한, 우리는 오른쪽 이동을 별도로 처리할 필요가 없다; 실제로 오른쪽 이동에 대한 등분성은 RNN 방정식에서 자연스럽게 따른다.

We can now again analyse the operation of the RNN over a left-shifted verson of 𝐳¯(t)superscript¯𝐳𝑡\bar{\mathbf{z}}^{(t)}over¯ start_ARG bold_z end_ARG start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT, which we denote by 𝐳¯(t)=𝐳¯(t+1)superscript¯𝐳𝑡superscript¯𝐳𝑡1\bar{\mathbf{z}}^{\prime(t)}=\bar{\mathbf{z}}^{(t+1)}over¯ start_ARG bold_z end_ARG start_POSTSUPERSCRIPT ′ ( italic_t ) end_POSTSUPERSCRIPT = over¯ start_ARG bold_z end_ARG start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT, as we did in Equations 4041:

𝐡(1)superscript𝐡1\displaystyle\mathbf{h}^{\prime(1)}bold_h start_POSTSUPERSCRIPT ′ ( 1 ) end_POSTSUPERSCRIPT =R(𝐳¯(1),𝐡(0))=R(𝐳¯(2),𝐡(0))absent𝑅superscript¯𝐳1superscript𝐡0𝑅superscript¯𝐳2superscript𝐡0\displaystyle=R(\bar{\mathbf{z}}^{\prime(1)},\mathbf{h}^{(0)})=R(\bar{\mathbf{z}}^{(2)},\mathbf{h}^{(0)})= italic_R ( over¯ start_ARG bold_z end_ARG start_POSTSUPERSCRIPT ′ ( 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT ) = italic_R ( over¯ start_ARG bold_z end_ARG start_POSTSUPERSCRIPT ( 2 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT )
𝐡(2)superscript𝐡2\displaystyle\mathbf{h}^{(2)}bold_h start_POSTSUPERSCRIPT ( 2 ) end_POSTSUPERSCRIPT =R(𝐳¯(2),𝐡(1))=R(𝐳¯(2),R(𝐳¯(1),𝐡(0)))=R(𝐳¯(2),R(𝟎,𝐡(0)))absent𝑅superscript¯𝐳2superscript𝐡1𝑅superscript¯𝐳2𝑅superscript¯𝐳1superscript𝐡0𝑅superscript¯𝐳2𝑅0superscript𝐡0\displaystyle=R(\bar{\mathbf{z}}^{(2)},\mathbf{h}^{(1)})=R(\bar{\mathbf{z}}^{(2)},R(\bar{\mathbf{z}}^{(1)},\mathbf{h}^{(0)}))=R(\bar{\mathbf{z}}^{(2)},R(\mathbf{0},\mathbf{h}^{(0)}))= italic_R ( over¯ start_ARG bold_z end_ARG start_POSTSUPERSCRIPT ( 2 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( 1 ) end_POSTSUPERSCRIPT ) = italic_R ( over¯ start_ARG bold_z end_ARG start_POSTSUPERSCRIPT ( 2 ) end_POSTSUPERSCRIPT , italic_R ( over¯ start_ARG bold_z end_ARG start_POSTSUPERSCRIPT ( 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT ) ) = italic_R ( over¯ start_ARG bold_z end_ARG start_POSTSUPERSCRIPT ( 2 ) end_POSTSUPERSCRIPT , italic_R ( bold_0 , bold_h start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT ) )

where the substitution 𝐳¯(1)=𝟎superscript¯𝐳10\bar{\mathbf{z}}^{(1)}=\mathbf{0}over¯ start_ARG bold_z end_ARG start_POSTSUPERSCRIPT ( 1 ) end_POSTSUPERSCRIPT = bold_0 holds as long as t1superscript𝑡1t^{\prime}\geq 1italic_t start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ≥ 1, i.e. as long as any padding is applied153153153In a very similar vein, we can derive equivariance to left-shifting by s𝑠sitalic_s steps as long as tssuperscript𝑡𝑠t^{\prime}\geq sitalic_t start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ≥ italic_s.. Now, we can guarantee equivariance to left-shifting by one step (𝐡(t)=𝐡(t+1)superscript𝐡𝑡superscript𝐡𝑡1\mathbf{h}^{\prime(t)}=\mathbf{h}^{(t+1)}bold_h start_POSTSUPERSCRIPT ′ ( italic_t ) end_POSTSUPERSCRIPT = bold_h start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT) as long as 𝐡(0)=R(𝟎,𝐡(0))superscript𝐡0𝑅0superscript𝐡0\mathbf{h}^{(0)}=R(\mathbf{0},\mathbf{h}^{(0)})bold_h start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT = italic_R ( bold_0 , bold_h start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT ).

Said differently, 𝐡(0)superscript𝐡0\mathbf{h}^{(0)}bold_h start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT must be chosen to be a fixed point of a function γ(𝐡)=R(𝟎,𝐡)𝛾𝐡𝑅0𝐡\gamma(\mathbf{h})=R(\mathbf{0},\mathbf{h})italic_γ ( bold_h ) = italic_R ( bold_0 , bold_h ). If the update function R𝑅Ritalic_R is conveniently chosen, then not only can we guarantee existence of such fixed points, but we can even directly obtain them by iterating the application of R𝑅Ritalic_R until convergence; e.g., as follows:

𝐡0=𝟎𝐡k+1=γ(𝐡k),formulae-sequencesubscript𝐡00subscript𝐡𝑘1𝛾subscript𝐡𝑘\mathbf{h}_{0}=\mathbf{0}\qquad\mathbf{h}_{k+1}=\gamma(\mathbf{h}_{k}),bold_h start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT = bold_0 bold_h start_POSTSUBSCRIPT italic_k + 1 end_POSTSUBSCRIPT = italic_γ ( bold_h start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ) , (42)

where the index k𝑘kitalic_k refers to the iteration of R𝑅Ritalic_R in our computation, as opposed to the the index (t)𝑡(t)( italic_t ) denoting the time step of the RNN. If we choose R𝑅Ritalic_R such that γ𝛾\gammaitalic_γ is a contraction mapping154154154Contractions are functions γ:𝒳𝒳:𝛾𝒳𝒳\gamma:\mathcal{X}\rightarrow\mathcal{X}italic_γ : caligraphic_X → caligraphic_X such that, under some norm \|\cdot\|∥ ⋅ ∥ on 𝒳𝒳\mathcal{X}caligraphic_X, applying γ𝛾\gammaitalic_γ contracts the distances between points: for all 𝐱,𝐲𝒳𝐱𝐲𝒳\mathbf{x},\mathbf{y}\in\mathcal{X}bold_x , bold_y ∈ caligraphic_X, and some q[0,1)𝑞01q\in[0,1)italic_q ∈ [ 0 , 1 ), it holds that γ(𝐱)γ(𝐲)q𝐱𝐲norm𝛾𝐱𝛾𝐲𝑞norm𝐱𝐲\|\gamma(\mathbf{x})-\gamma(\mathbf{y})\|\leq q\|\mathbf{x}-\mathbf{y}\|∥ italic_γ ( bold_x ) - italic_γ ( bold_y ) ∥ ≤ italic_q ∥ bold_x - bold_y ∥. Iterating such a function then necessarily converges to a unique fixed point, as a direct consequence of Banach’s Fixed Point Theorem (Banach, 1922)., such an iteration will indeed converge to a unique fixed point. Accordingly, we can then iterate Equation (42) until 𝐡k+1=𝐡ksubscript𝐡𝑘1subscript𝐡𝑘\mathbf{h}_{k+1}=\mathbf{h}_{k}bold_h start_POSTSUBSCRIPT italic_k + 1 end_POSTSUBSCRIPT = bold_h start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT, and we can set 𝐡(0)=𝐡ksuperscript𝐡0subscript𝐡𝑘\mathbf{h}^{(0)}=\mathbf{h}_{k}bold_h start_POSTSUPERSCRIPT ( 0 ) end_POSTSUPERSCRIPT = bold_h start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT. Note that this computation is equivalent to left-padding the sequence with “sufficiently many” zero-vectors.

Depth in RNNs

또한 여러 개의 RNN을 스택하는 것도 쉽습니다. 두 번째 RNN에 대한 입력 시퀀스로 𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT 벡터를 사용하기만 하면 됩니다. 이러한 종류의 구성은 때때로 "깊은 RNN"이라고 불리며, 이는 잠재적으로 오해의 소지가 있다. 효과적으로, 순환 연산의 반복된 적용으로 인해, 단일 RNN "계층"조차도 깊이 입력 단계 수과 동일하다.

이것은 종종 RNN을 최적화할 때 독특하게 도전적인 학습 역학을 도입하는데, 각각의 트레이닝 예가 업데이트 네트워크의 shared 파라미터에 많은 그래디언트 업데이트를 유도하기 때문이다. 여기에서 우리는 vanishingexplodinggradients (Bengio et al., 1994)와 같은 가장 두드러진 문제에 초점을 맞출 것이다. 또한, 그것은 단독으로 RNN에 대한 가장 영향력 있는 연구 중 일부에 박차를 가했다. 보다 상세한 개요를 위해, 우리는 RNN의 훈련 역학에 대해 매우 자세히 연구한 Pascanu et al. (2013)를 독자에게 참조하고, 해석적, 기하학적, 동적 시스템의 렌즈 등 다양한 관점에서 이러한 과제를 노출시켰다.

To illustrate vanishing gradients, consider a SimpleRNN with a sigmoidal activation function σ𝜎\sigmaitalic_σ155155155[Uncaptioned image]
Examples of such an activation include the logistic function, σ(x)=11+exp(x)𝜎𝑥11𝑥\sigma(x)=\frac{1}{1+\exp(-x)}italic_σ ( italic_x ) = divide start_ARG 1 end_ARG start_ARG 1 + roman_exp ( - italic_x ) end_ARG, and the hyperbolic tangent, σ(x)=tanhx𝜎𝑥𝑥\sigma(x)=\tanh xitalic_σ ( italic_x ) = roman_tanh italic_x. They are called sigmoidal due to the distinct S-shape of their plots.
, whose derivative magnitude |σ|superscript𝜎|\sigma^{\prime}|| italic_σ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT | is always between 00 and 1111. Multiplying many such values results in gradients that quickly tend to zero, implying that early steps in the input sequence may not be able to have influence in updating the network parameters at all.

예를 들어 다음 단어 예측 작업 (예: 예측 키보드에서 공통)을 고려 하 고 입력 텍스트 "Petar is Serbian. He was born on …[long paragraph] …Petar currently lives in "> . 여기서 다음 단어를 "세르비아"로 예측하는 것은 단락의 시작 부분을 고려하여 합리적으로 결론지을 수 있지만 이 입력 단계에 도달할 때까지 기울기가 사라져서 그러한 예제를 배우는 것이 매우 어려울 수 있다.

딥 피드포워드 뉴럴 네트워크들은 또한 ReLU 활성화(이는 exactly 0 또는 1 - 따라서 소실 구배 문제를 고정함)가 발명될 때까지 소실 구배 문제를 겪었다. 그러나 RNNs에서 ReLUs를 사용하면 업데이트 함수의 출력 공간이 이제 explodinggradients로 쉽게 이어질 수 있습니다. 업데이트 함수의 출력 공간이 이제 unbounded이고 Gradient descent는 모든 입력 단계에 대해 셀을 한 번 업데이트하여 업데이트의 규모를 빠르게 구축합니다. 역사적으로, 소실 구배 현상은 일찍이 순환 네트워크 사용의 중요한 장애물로 인식되었다. 이 문제에 대처하는 것은 우리가 다음에 설명하는 보다 정교한 RNN 층의 개발에 동기를 부여했다.

5.8 Long Short-Term Memory networks

Refer to caption
도 20:The dataflow of the long short-term memory (LSTM), with its components and memory cell (M𝑀Mitalic_M) clearly highlighted. 현재 입력 𝐳(t)superscript𝐳𝑡\mathbf{z}^{(t)}bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT, 이전 요약 𝐡(t1)superscript𝐡𝑡1\mathbf{h}^{(t-1)}bold_h start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT 및 이전 셀 상태 𝐜(t1)superscript𝐜𝑡1\mathbf{c}^{(t-1)}bold_c start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT에 기초하여, LSTM은 업데이트된 셀 상태 𝐜(t)superscript𝐜𝑡\mathbf{c}^{(t)}bold_c start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT 및 요약 𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT를 예측한다.

RNNs에서 기울기 소실 효과를 크게 줄인 핵심 발명은 네트워크가 데이터 구동 방식으로 gating mechanisms 정보를 선택적으로 overwrite 정보를 사용할 수 있도록 하는 것이다. 이러한 gated RNNs의 두드러진 예는 Long Short-Term Memory (LSTM; Hochreiter and Schmidhuber (1997)) 및 Gated Recurrent Unit (GRU; Cho et al. (2014))를 포함한다. 여기서는 이러한 모델의 동작을 설명하기 위해 주로 LSTM, 특히 Graves (2013)에 의해 제시된 변형에 대해 논의할 것이다. LSTM의 개념은 다른 게이트형 RNN으로 쉽게 넘어간다.

이 섹션 전반에 걸쳐, 우리가 텍스트로 논의할 모든 LSTM 동작들을 예시하는 그림 20를 참조하는 것이 유용할 것이다.

LSTM은 memory cell, cell state vector, 𝐜(t)msuperscript𝐜𝑡superscript𝑚\mathbf{c}^{(t)}\in\mathbb{R}^{m}bold_c start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT, preserved을 연산 단계 사이에 저장함으로써 순환 연산을 증가시킨다. LSTM은 요약 벡터, 𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT, 𝐜(t)superscript𝐜𝑡\mathbf{c}^{(t)}bold_c start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT, 𝐜(t)superscript𝐜𝑡\mathbf{c}^{(t)}bold_c start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT를 직접 계산하며, 차례로 𝐳(t)superscript𝐳𝑡\mathbf{z}^{(t)}bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT, 𝐡(t1)superscript𝐡𝑡1\mathbf{h}^{(t-1)}bold_h start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT𝐜(t1)superscript𝐜𝑡1\mathbf{c}^{(t-1)}bold_c start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT를 사용하여 계산한다. 비판적으로, 셀은 not𝐳(t)superscript𝐳𝑡\mathbf{z}^{(t)}bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT𝐡(t1)superscript𝐡𝑡1\mathbf{h}^{(t-1)}bold_h start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT에 기초하여 완전히 덮어쓰기되어 SimpleRNN과 동일한 이슈에 네트워크를 노출시킬 것이다. 대신 이전 셀 상태의 특정 양은 retained일 수 있으며, 이것이 발생하는 비율은 데이터에서 명시적으로 learned일 수 있다.

SimpleRNN에서와 마찬가지로, 현재 입력 단계 및 이전 요약에 걸쳐 단일 완전 연결 신경망 계층을 사용하여 피쳐를 계산합니다. 156156156Note 우리는 활성화 함수를 tanh\tanhroman_tanh here로 설정했습니다. LSTM이 소실 구배 문제를 개선하도록 설계됨에 따라 S자형 활성화를 사용하는 것이 적절합니다.

𝐜~(t)=tanh(𝐖c𝐳(t)+𝐔c𝐡(t1)+𝐛c)superscript~𝐜𝑡subscript𝐖𝑐superscript𝐳𝑡subscript𝐔𝑐superscript𝐡𝑡1subscript𝐛𝑐\widetilde{\mathbf{c}}^{(t)}=\tanh(\mathbf{W}_{c}\mathbf{z}^{(t)}+\mathbf{U}_{c}\mathbf{h}^{(t-1)}+\mathbf{b}_{c})over~ start_ARG bold_c end_ARG start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT = roman_tanh ( bold_W start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPT bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT + bold_U start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPT bold_h start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT + bold_b start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPT ) (43)

그러나, 언급된 바와 같이, 우리는 이 벡터의 all이 셀에 들어가는 것을 허용하지 않는다. 따라서, 우리는 이것을 candidate 기능의 벡터라고 부르고, 이를 𝐜~(t)superscript~𝐜𝑡\widetilde{\mathbf{c}}^{(t)}over~ start_ARG bold_c end_ARG start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT라고 표시한다. 대신, LSTM은 [0,1]01[0,1][ 0 , 1 ] 범위의 실수값 벡터인 gating vectors을 직접 학습하고, 메모리 셀에 신호가 얼마나 들어가고, 나가고, 덮어쓰도록 허용되어야 하는지를 결정한다.

이러한 세 개의 게이트는 모두 𝐳(t)superscript𝐳𝑡\mathbf{z}^{(t)}bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT𝐡(t1)superscript𝐡𝑡1\mathbf{h}^{(t-1)}bold_h start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT에 기초하여 계산된다: 셀에 들어가는 것이 허용된 후보 벡터의 비율을 계산하는 input gate 𝐢(t)superscript𝐢𝑡\mathbf{i}^{(t)}bold_i start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT; 보유될 이전 셀 상태의 비율을 계산하는 forget gate 𝐟(t)superscript𝐟𝑡\mathbf{f}^{(t)}bold_f start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT 및 최종 요약 벡터에 사용될 새로운 셀 상태의 비율을 계산하는 output gate 𝐨(t)superscript𝐨𝑡\mathbf{o}^{(t)}bold_o start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT. 일반적으로 이러한 모든 게이트는 단일 완전 연결 계층을 사용하여 유도됩니다. albeit with the logistic sigmoid activation logistic(x)=11+exp(x)logistic𝑥11𝑥\mathrm{logistic}(x)=\frac{1}{1+\exp(-x)}roman_logistic ( italic_x ) = divide start_ARG 1 end_ARG start_ARG 1 + roman_exp ( - italic_x ) end_ARG 출력들이 [0,1]01[0,1][ 0 , 1 ] range157157157157Note that the three gate is themselves vectors, i.e. 𝐢(t),𝐟(t),𝐨(t)[0,1]msuperscript𝐢𝑡superscript𝐟𝑡superscript𝐨𝑡superscript01𝑚\mathbf{i}^{(t)},\mathbf{f}^{(t)},\mathbf{o}^{(t)}\in[0,1]^{m}bold_i start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT , bold_f start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT , bold_o start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ∈ [ 0 , 1 ] start_POSTSUPERSCRIPT italic_m end_POSTSUPERSCRIPT 이를 통해 게이트를 통해 m𝑚mitalic_m 차원의 each이 얼마나 허용되는지를 제어할 수 있다.

𝐢(t)superscript𝐢𝑡\displaystyle\mathbf{i}^{(t)}bold_i start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT =logistic(𝐖i𝐳(t)+𝐔i𝐡(t1)+𝐛i)absentlogisticsubscript𝐖isuperscript𝐳𝑡subscript𝐔isuperscript𝐡𝑡1subscript𝐛i\displaystyle=\mathrm{logistic}(\mathbf{W}_{\mathrm{i}}\mathbf{z}^{(t)}+\mathbf{U}_{\mathrm{i}}\mathbf{h}^{(t-1)}+\mathbf{b}_{\mathrm{i}})= roman_logistic ( bold_W start_POSTSUBSCRIPT roman_i end_POSTSUBSCRIPT bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT + bold_U start_POSTSUBSCRIPT roman_i end_POSTSUBSCRIPT bold_h start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT + bold_b start_POSTSUBSCRIPT roman_i end_POSTSUBSCRIPT ) (44)
𝐟(t)superscript𝐟𝑡\displaystyle\mathbf{f}^{(t)}bold_f start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT =logistic(𝐖f𝐳(t)+𝐔f𝐡(t1)+𝐛f)absentlogisticsubscript𝐖fsuperscript𝐳𝑡subscript𝐔fsuperscript𝐡𝑡1subscript𝐛f\displaystyle=\mathrm{logistic}(\mathbf{W}_{\mathrm{f}}\mathbf{z}^{(t)}+\mathbf{U}_{\mathrm{f}}\mathbf{h}^{(t-1)}+\mathbf{b}_{\mathrm{f}})= roman_logistic ( bold_W start_POSTSUBSCRIPT roman_f end_POSTSUBSCRIPT bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT + bold_U start_POSTSUBSCRIPT roman_f end_POSTSUBSCRIPT bold_h start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT + bold_b start_POSTSUBSCRIPT roman_f end_POSTSUBSCRIPT ) (45)
𝐨(t)superscript𝐨𝑡\displaystyle\mathbf{o}^{(t)}bold_o start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT =logistic(𝐖o𝐳(t)+𝐔o𝐡(t1)+𝐛o)absentlogisticsubscript𝐖osuperscript𝐳𝑡subscript𝐔osuperscript𝐡𝑡1subscript𝐛o\displaystyle=\mathrm{logistic}(\mathbf{W}_{\mathrm{o}}\mathbf{z}^{(t)}+\mathbf{U}_{\mathrm{o}}\mathbf{h}^{(t-1)}+\mathbf{b}_{\mathrm{o}})= roman_logistic ( bold_W start_POSTSUBSCRIPT roman_o end_POSTSUBSCRIPT bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT + bold_U start_POSTSUBSCRIPT roman_o end_POSTSUBSCRIPT bold_h start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT + bold_b start_POSTSUBSCRIPT roman_o end_POSTSUBSCRIPT ) (46)

마지막으로, 이들 게이트는 new 셀 상태, 𝐜(t)superscript𝐜𝑡\mathbf{c}^{(t)}bold_c start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT를 디코딩하기 위해 적절하게 적용되고, 그 다음 출력 게이트에 의해 변조되어 다음과 같이 요약 벡터 𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT를 생성한다:

𝐜(t)superscript𝐜𝑡\displaystyle\mathbf{c}^{(t)}bold_c start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT =𝐢(t)𝐜~(t)+𝐟(t)𝐜(t1)absentdirect-productsuperscript𝐢𝑡superscript~𝐜𝑡direct-productsuperscript𝐟𝑡superscript𝐜𝑡1\displaystyle=\mathbf{i}^{(t)}\odot\widetilde{\mathbf{c}}^{(t)}+\mathbf{f}^{(t)}\odot\mathbf{c}^{(t-1)}= bold_i start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ⊙ over~ start_ARG bold_c end_ARG start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT + bold_f start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ⊙ bold_c start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT (47)
𝐡(t)superscript𝐡𝑡\displaystyle\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT =𝐨(t)tanh(𝐜(t))absentdirect-productsuperscript𝐨𝑡superscript𝐜𝑡\displaystyle=\mathbf{o}^{(t)}\odot\tanh(\mathbf{c}^{(t)})= bold_o start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ⊙ roman_tanh ( bold_c start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ) (48)

여기서 direct-product\odot는 요소별 벡터 곱셈이다. 함께 적용되면, 수학식 (43)–(48)는 LSTM에 대해 update rule을 완전히 지정하며, 이는 이제 셀 벡터 𝐜(t)superscript𝐜𝑡\mathbf{c}^{(t)}bold_c start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT를 well158158158이는 여전히 수학식 (38)로부터의 RNN 업데이트 청사진과 호환된다; 간단히 요약 벡터를 concaten

(𝐡(t),𝐜(t))=R(𝐳(t),(𝐡(t1),𝐜(t1)))superscript𝐡𝑡superscript𝐜𝑡𝑅superscript𝐳𝑡superscript𝐡𝑡1superscript𝐜𝑡1(\mathbf{h}^{(t)},\mathbf{c}^{(t)})=R(\mathbf{z}^{(t)},(\mathbf{h}^{(t-1)},\mathbf{c}^{(t-1)}))( bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT , bold_c start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ) = italic_R ( bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT , ( bold_h start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT , bold_c start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT ) )

𝐟(t)superscript𝐟𝑡\mathbf{f}^{(t)}bold_f start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT의 값이 𝐳(t)superscript𝐳𝑡\mathbf{z}^{(t)}bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT𝐡(t1)superscript𝐡𝑡1\mathbf{h}^{(t-1)}bold_h start_POSTSUPERSCRIPT ( italic_t - 1 ) end_POSTSUPERSCRIPT로부터 도출되고, 따라서 직접 learnable from data - LSTM은 과거의 경험을 적절하게 잊는 방법을 효과적으로 학습한다. 실제로, 𝐟(t)superscript𝐟𝑡\mathbf{f}^{(t)}bold_f start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT의 값은 모든 LSTM 파라미터(𝐖*,𝐔*,𝐛*subscript𝐖subscript𝐔subscript𝐛\mathbf{W}_{*},\mathbf{U}_{*},\mathbf{b}_{*}bold_W start_POSTSUBSCRIPT * end_POSTSUBSCRIPT , bold_U start_POSTSUBSCRIPT * end_POSTSUBSCRIPT , bold_b start_POSTSUBSCRIPT * end_POSTSUBSCRIPT)에 대한 역전파 업데이트에 직접 나타나 네트워크가 데이터 구동 방식으로 control, 시간 단계에 걸쳐 기울기에 대해 사라지는 정도를 명시적으로 지정할 수 있다.

사라지는 기울기 문제를 정면으로 해결하는 것 외에도 게이티드 RNN은 SimpleRNN의 손이 닿지 않는 time-warping 변환에 대한 매우 유용한 형태의 불변도 해제한다는 것이 밝혀졌다.

Time warping invariance of gated RNNs

먼저 continuous-time setting159159159We focus on the continuous setting as it will be easier to reason about manipulations of time there. warp time 및 이러한 변환에 대한 불변성을 달성하기 위해 순환 모델의 요구 사항이 무엇인지 설명한다. 우리의 설명은 처음에 이 현상을 설명한 Tallec and Ollivier (2018)의 작업을 주로 따를 것이며, 실제로 불변 렌즈에서 RNN을 실제로 연구한 최초의 것 중 하나였다.

Let us assume a continuous time-domain signal z(t)𝑧𝑡z(t)italic_z ( italic_t ), on which we would like to apply an RNN. To align the RNN’s discrete-time computation of summary vectors 𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT160160160We will use h(t)𝑡h(t)italic_h ( italic_t ) to denote a continuous signal at time t𝑡titalic_t, and 𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT to denote a discrete signal at time-step t𝑡titalic_t.with an analogue in the continuous domain, h(t)𝑡h(t)italic_h ( italic_t ), we will observe its linear Taylor expansion:

h(t+δ)h(t)+δdh(t)dt𝑡𝛿𝑡𝛿d𝑡d𝑡h(t+\delta)\approx h(t)+\delta\frac{\mathrm{d}h(t)}{\mathrm{d}t}italic_h ( italic_t + italic_δ ) ≈ italic_h ( italic_t ) + italic_δ divide start_ARG roman_d italic_h ( italic_t ) end_ARG start_ARG roman_d italic_t end_ARG (49)

and, setting δ=1𝛿1\delta=1italic_δ = 1, we recover a relationship between h(t)𝑡h(t)italic_h ( italic_t ) and h(t+1)𝑡1h(t+1)italic_h ( italic_t + 1 ), which is exactly what the RNN update function R𝑅Ritalic_R (Equation 38) computes. Namely, the RNN update function satisfies the following differential equation:

dh(t)dt=h(t+1)h(t)=R(z(t+1),h(t))h(t)d𝑡d𝑡𝑡1𝑡𝑅𝑧𝑡1𝑡𝑡\frac{\mathrm{d}h(t)}{\mathrm{d}t}=h(t+1)-h(t)=R(z(t+1),h(t))-h(t)divide start_ARG roman_d italic_h ( italic_t ) end_ARG start_ARG roman_d italic_t end_ARG = italic_h ( italic_t + 1 ) - italic_h ( italic_t ) = italic_R ( italic_z ( italic_t + 1 ) , italic_h ( italic_t ) ) - italic_h ( italic_t ) (50)

우리는 RNN이 (예를 들어, 측정의 시간 단위를 변경함으로써) 신호가 샘플링되는 방식에 탄력적이기를 바란다. 형식적으로, 우리는 time warping161161161161161161161161variably-changing 샘플링 속도, 예를 들어 샘플링은 시간 도메인 전체에 걸쳐 자유롭게 가속 또는 감속할 수 있습니다. operation τ:++:𝜏superscriptsuperscript\tau:\mathbb{R}^{+}\rightarrow\mathbb{R}^{+}italic_τ : blackboard_R start_POSTSUPERSCRIPT + end_POSTSUPERSCRIPT → blackboard_R start_POSTSUPERSCRIPT + end_POSTSUPERSCRIPT는 임의의 단조롭게 증가하는 시간 간의 미분 가능한 매핑이다. 표기 τ𝜏\tauitalic_τ는 타임 워핑이 automorphism of time을 나타내기 때문에 선택된다.

또한, 모델의 클래스가 invariant to time warping인 경우, 클래스의 임의의 모델 및 그러한 τ𝜏\tauitalic_τ에 대해, 워핑되지 않은 경우에 원래의 모델과 동일한 방식으로 워핑된 데이터를 처리하는 클래스로부터의 다른(아마도 동일한) 모델이 존재한다고 한다.

이것은 잠재적으로 매우 유용한 속성입니다. 단기 종속성을 잘 모델링할 수 있는 RNN 클래스가 있고, 또한 이 클래스가 시간 와핑에 불변한다는 것을 보여줄 수 있다면, (단기 종속성을 갖는 신호의 시간 확장 와핑에 대응할 것이기 때문에) 장기 종속성도 유용하게 캡처할 방식으로 그러한 모델을 트레이닝하는 것이 가능하다는 것을 알 수 있다. 곧 볼 수 있듯이, gated LSTM과 같은 RNN 모델이 장거리 종속성을 모델링하도록 제안된 것은 우연이 아니다. 시간 왜곡 불변성을 달성하는 것은 LSTM의 입력/잊음/출력 게이트와 같은 게이팅 메커니즘의 존재와 밀접하게 결합된다.

When time gets warped by τ𝜏\tauitalic_τ, the signal observed by the RNN at time t𝑡titalic_t is z(τ(t))𝑧𝜏𝑡z(\tau(t))italic_z ( italic_τ ( italic_t ) ) and, to remain invariant to such warpings, it should predict an equivalently-warped summary function h(τ(t))𝜏𝑡h(\tau(t))italic_h ( italic_τ ( italic_t ) ). Using Taylor expansion arguments once more, we derive a form of Equation 50 for the warped time, that the RNN update R𝑅Ritalic_R should satisfy:

dh(τ(t))dτ(t)=R(z(τ(t+1)),h(τ(t)))h(τ(t))d𝜏𝑡d𝜏𝑡𝑅𝑧𝜏𝑡1𝜏𝑡𝜏𝑡\frac{\mathrm{d}h(\tau(t))}{\mathrm{d}\tau(t)}=R(z(\tau(t+1)),h(\tau(t)))-h(\tau(t))divide start_ARG roman_d italic_h ( italic_τ ( italic_t ) ) end_ARG start_ARG roman_d italic_τ ( italic_t ) end_ARG = italic_R ( italic_z ( italic_τ ( italic_t + 1 ) ) , italic_h ( italic_τ ( italic_t ) ) ) - italic_h ( italic_τ ( italic_t ) ) (51)

그러나, 상기 도함수는 워핑된 시간 τ(t)𝜏𝑡\tau(t)italic_τ ( italic_t )에 대하여 계산되므로, 원래의 신호를 고려하지 않는다. 워핑 변환을 명시적으로 고려하기 위해서는 t𝑡titalic_t와 관련하여 워핑된 요약 함수를 미분해야 한다. 체인 규칙을 적용하면 다음과 같은 미분 방정식이 산출된다:

dh(τ(t))dt=dh(τ(t))dτ(t)dτ(t)dt=dτ(t)dtR(z(τ(t+1)),h(τ(t)))dτ(t)dth(τ(t))d𝜏𝑡d𝑡d𝜏𝑡d𝜏𝑡d𝜏𝑡d𝑡d𝜏𝑡d𝑡𝑅𝑧𝜏𝑡1𝜏𝑡d𝜏𝑡d𝑡𝜏𝑡\frac{\mathrm{d}h(\tau(t))}{\mathrm{d}t}=\frac{\mathrm{d}h(\tau(t))}{\mathrm{d}\tau(t)}\frac{\mathrm{d}\tau(t)}{\mathrm{d}t}=\frac{\mathrm{d}\tau(t)}{\mathrm{d}t}R(z(\tau(t+1)),h(\tau(t)))-\frac{\mathrm{d}\tau(t)}{\mathrm{d}t}h(\tau(t))divide start_ARG roman_d italic_h ( italic_τ ( italic_t ) ) end_ARG start_ARG roman_d italic_t end_ARG = divide start_ARG roman_d italic_h ( italic_τ ( italic_t ) ) end_ARG start_ARG roman_d italic_τ ( italic_t ) end_ARG divide start_ARG roman_d italic_τ ( italic_t ) end_ARG start_ARG roman_d italic_t end_ARG = divide start_ARG roman_d italic_τ ( italic_t ) end_ARG start_ARG roman_d italic_t end_ARG italic_R ( italic_z ( italic_τ ( italic_t + 1 ) ) , italic_h ( italic_τ ( italic_t ) ) ) - divide start_ARG roman_d italic_τ ( italic_t ) end_ARG start_ARG roman_d italic_t end_ARG italic_h ( italic_τ ( italic_t ) ) (52)

and, for our (continuous-time) RNN to remain invariant to any time warping τ(t)𝜏𝑡\tau(t)italic_τ ( italic_t ), it needs to be able to explicitly represent the derivative dτ(t)dtd𝜏𝑡d𝑡\frac{\mathrm{d}\tau(t)}{\mathrm{d}t}divide start_ARG roman_d italic_τ ( italic_t ) end_ARG start_ARG roman_d italic_t end_ARG, which is not assumed known upfront! We need to introduce a learnable function ΓΓ\Gammaroman_Γ which approximates this derivative. For example, ΓΓ\Gammaroman_Γ could be a neural network taking into account z(t+1)𝑧𝑡1z(t+1)italic_z ( italic_t + 1 ) and h(t)𝑡h(t)italic_h ( italic_t ) and predicting scalar outputs.

Now, remark that, from the point of view of a discrete RNN model under time warping, its input 𝐳(t)superscript𝐳𝑡\mathbf{z}^{(t)}bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT will correspond to z(τ(t))𝑧𝜏𝑡z(\tau(t))italic_z ( italic_τ ( italic_t ) ), and its summary 𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT will correspond to h(τ(t))𝜏𝑡h(\tau(t))italic_h ( italic_τ ( italic_t ) ). To obtain the required relationship of 𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT to 𝐡(t+1)superscript𝐡𝑡1\mathbf{h}^{(t+1)}bold_h start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT in order to remain invariant to time warping, we will use a one-step Taylor expansion of h(τ(t))𝜏𝑡h(\tau(t))italic_h ( italic_τ ( italic_t ) ):

h(τ(t+δ))h(τ(t))+δdh(τ(t))dt𝜏𝑡𝛿𝜏𝑡𝛿d𝜏𝑡d𝑡h(\tau(t+\delta))\approx h(\tau(t))+\delta\frac{\mathrm{d}h(\tau(t))}{\mathrm{d}t}italic_h ( italic_τ ( italic_t + italic_δ ) ) ≈ italic_h ( italic_τ ( italic_t ) ) + italic_δ divide start_ARG roman_d italic_h ( italic_τ ( italic_t ) ) end_ARG start_ARG roman_d italic_t end_ARG

and, once again, setting δ=1𝛿1\delta=1italic_δ = 1 and substituting Equation 52, then discretising:

𝐡(t+1)superscript𝐡𝑡1\displaystyle\mathbf{h}^{(t+1)}bold_h start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT =𝐡(t)+dτ(t)dtR(𝐳(t+1),𝐡(t))dτ(t)dt𝐡(t)absentsuperscript𝐡𝑡d𝜏𝑡d𝑡𝑅superscript𝐳𝑡1superscript𝐡𝑡d𝜏𝑡d𝑡superscript𝐡𝑡\displaystyle=\mathbf{h}^{(t)}+\frac{\mathrm{d}\tau(t)}{\mathrm{d}t}R(\mathbf{z}^{(t+1)},\mathbf{h}^{(t)})-\frac{\mathrm{d}\tau(t)}{\mathrm{d}t}\mathbf{h}^{(t)}= bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT + divide start_ARG roman_d italic_τ ( italic_t ) end_ARG start_ARG roman_d italic_t end_ARG italic_R ( bold_z start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ) - divide start_ARG roman_d italic_τ ( italic_t ) end_ARG start_ARG roman_d italic_t end_ARG bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT
=dτ(t)dtR(𝐳(t+1),𝐡(t))+(1dτ(t)dt)𝐡(t)absentd𝜏𝑡d𝑡𝑅superscript𝐳𝑡1superscript𝐡𝑡1d𝜏𝑡d𝑡superscript𝐡𝑡\displaystyle=\frac{\mathrm{d}\tau(t)}{\mathrm{d}t}R(\mathbf{z}^{(t+1)},\mathbf{h}^{(t)})+\left(1-\frac{\mathrm{d}\tau(t)}{\mathrm{d}t}\right)\mathbf{h}^{(t)}= divide start_ARG roman_d italic_τ ( italic_t ) end_ARG start_ARG roman_d italic_t end_ARG italic_R ( bold_z start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ) + ( 1 - divide start_ARG roman_d italic_τ ( italic_t ) end_ARG start_ARG roman_d italic_t end_ARG ) bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT

Finally, we swap dτ(t)dtd𝜏𝑡d𝑡\frac{\mathrm{d}\tau(t)}{\mathrm{d}t}divide start_ARG roman_d italic_τ ( italic_t ) end_ARG start_ARG roman_d italic_t end_ARG with the aforementioned learnable function, ΓΓ\Gammaroman_Γ. This gives us the required form for our time warping-invariant RNN:

𝐡(t+1)=Γ(𝐳(t+1),𝐡(t))R(𝐳(t+1),𝐡(t))+(1Γ(𝐳(t+1),𝐡(t)))𝐡(t)superscript𝐡𝑡1Γsuperscript𝐳𝑡1superscript𝐡𝑡𝑅superscript𝐳𝑡1superscript𝐡𝑡1Γsuperscript𝐳𝑡1superscript𝐡𝑡superscript𝐡𝑡\mathbf{h}^{(t+1)}=\Gamma(\mathbf{z}^{(t+1)},\mathbf{h}^{(t)})R(\mathbf{z}^{(t+1)},\mathbf{h}^{(t)})+(1-\Gamma(\mathbf{z}^{(t+1)},\mathbf{h}^{(t)}))\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT = roman_Γ ( bold_z start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ) italic_R ( bold_z start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ) + ( 1 - roman_Γ ( bold_z start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ) ) bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT (53)

We may quickly deduce that SimpleRNNs (Equation 39) are not time warping invariant, given that they do not feature the second term in Equation 53. Instead, they fully overwrite 𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT with R(𝐳(t+1),𝐡(t))𝑅superscript𝐳𝑡1superscript𝐡𝑡R(\mathbf{z}^{(t+1)},\mathbf{h}^{(t)})italic_R ( bold_z start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ), which corresponds to assuming no time warping at all; dτ(t)dt=1d𝜏𝑡d𝑡1\frac{\mathrm{d}\tau(t)}{\mathrm{d}t}=1divide start_ARG roman_d italic_τ ( italic_t ) end_ARG start_ARG roman_d italic_t end_ARG = 1, i.e. τ(t)=t𝜏𝑡𝑡\tau(t)=titalic_τ ( italic_t ) = italic_t.

또한, R𝑅Ritalic_R에 기초한 연속 시간 RNN과 이산 RNN 사이의 링크는 시간 워핑 도함수가 너무 크지 않은 경우, 즉 dτ(t)dt1less-than-or-similar-tod𝜏𝑡d𝑡1\frac{\mathrm{d}\tau(t)}{\mathrm{d}t}\lesssim 1divide start_ARG roman_d italic_τ ( italic_t ) end_ARG start_ARG roman_d italic_t end_ARG ≲ 1일 경우에만 유지되는 테일러 근사화의 정확도에 달려 있다. 이에 대한 직관적인 설명은 다음과 같습니다. 만약 우리의 시간 워핑 작업이 contracts time을 중간 데이터 변화가 샘플링되지 않을 만큼 충분히 큰 시간 증분(tt+1𝑡𝑡1t\rightarrow t+1italic_t → italic_t + 1)을 만드는 방식으로 만든다면, 모델은 시간 워핑된 입력을 원래 입력과 동일한 방식으로 처리하는 것을 결코 희망할 수 없습니다. 이는 단순히 동일한 정보에 대한 액세스를 갖지 않을 것입니다. 반대로, 시간 dilations(이는 이산적인 용어로 입력 시계열에 0이 있는 간격띄우기에 해당함)은 프레임워크 내에서 완벽하게 허용됩니다.

Combined with our requirement of monotonically increasing τ𝜏\tauitalic_τ (dτ(t)dt>0d𝜏𝑡d𝑡0\frac{\mathrm{d}\tau(t)}{\mathrm{d}t}>0divide start_ARG roman_d italic_τ ( italic_t ) end_ARG start_ARG roman_d italic_t end_ARG > 0), we can bound the output space of ΓΓ\Gammaroman_Γ as 0<Γ(𝐳(t+1),𝐡(t))<10Γsuperscript𝐳𝑡1superscript𝐡𝑡10<\Gamma(\mathbf{z}^{(t+1)},\mathbf{h}^{(t)})<10 < roman_Γ ( bold_z start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ) < 1, which motivates the use of the logistic sigmoid activation for ΓΓ\Gammaroman_Γ, e.g.:

Γ(𝐳(t+1),𝐡(t))=logistic(𝐖Γ𝐳(t+1)+𝐔Γ𝐡(t)+𝐛Γ)Γsuperscript𝐳𝑡1superscript𝐡𝑡logisticsubscript𝐖Γsuperscript𝐳𝑡1subscript𝐔Γsuperscript𝐡𝑡subscript𝐛Γ\Gamma(\mathbf{z}^{(t+1)},\mathbf{h}^{(t)})=\mathrm{logistic}({\bf W}_{\Gamma}\mathbf{z}^{(t+1)}+{\bf U}_{\Gamma}\mathbf{h}^{(t)}+\mathbf{b}_{\Gamma})roman_Γ ( bold_z start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ) = roman_logistic ( bold_W start_POSTSUBSCRIPT roman_Γ end_POSTSUBSCRIPT bold_z start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT + bold_U start_POSTSUBSCRIPT roman_Γ end_POSTSUBSCRIPT bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT + bold_b start_POSTSUBSCRIPT roman_Γ end_POSTSUBSCRIPT )

exactly matching the LSTM gating equations (e.g. Equation 44). 주요 차이점은 LSTMs 컴퓨팅 게이팅 vectors인 반면, 수학식 53ΓΓ\Gammaroman_Γ가 스칼라 출력을 해야 함을 의미한다. 벡터화된 게이트 (Hochreiter, 1991)different warping derivative in every dimension of 𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT allowing for reasoning over multiple time horizons simultaneously.

우리가 한 일을 요약하기 위해 여기서 잠시 멈출 가치가 있다. 우리의 RNN 클래스가 (비파괴적) 시간 와핑에 불변임을 요구함으로써, 우리는 그것이 가져야 하는 필요한 형태를 도출했고(식 53), 그것이 gated RNNs의 클래스에 정확히 대응함을 보여주었다. 이러한 관점에서 게이트의 주요 역할은 워핑 변환의 derivative dτ(t)dtd𝜏𝑡d𝑡\frac{\mathrm{d}\tau(t)}{\mathrm{d}t}divide start_ARG roman_d italic_τ ( italic_t ) end_ARG start_ARG roman_d italic_t end_ARG를 정확하게 맞추는 것이다.

class invariance의 개념은 이전에 연구했던 invariance와 다소 다르다. 즉, 일단 τ1(t)subscript𝜏1𝑡\tau_{1}(t)italic_τ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ( italic_t )로 타임 워핑된 입력에 대해 게이티드 RNN을 트레이닝하면, 일반적으로 제로 샷 트랜스퍼 162162162162 제로 샷 트랜스퍼가 가능한 한 경우는 두 번째 타임 워핑이 첫 번째 타임 워핑의 타임 리스케일으로 가정될 때이다(τ2(t)=ατ1(t)subscript𝜏2𝑡𝛼subscript𝜏1𝑡\tau_{2}(t)=\alpha\tau_{1}(t)italic_τ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( italic_t ) = italic_α italic_τ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ( italic_t )). τ1subscript𝜏1\tau_{1}italic_τ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT에 미리 훈련된 게이티드 RNN을 τ2subscript𝜏2\tau_{2}italic_τ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT에 의해 워핑된 신호로 전송하는 것은 단지 rescaling the gates:Γ2(𝐳(t+1),𝐡(t))=αΓ1(𝐳(t+1),𝐡(t))subscriptΓ2superscript𝐳𝑡1superscript𝐡𝑡𝛼subscriptΓ1superscript𝐳𝑡1superscript𝐡𝑡\Gamma_{2}(\mathbf{z}^{(t+1)},\mathbf{h}^{(t)})=\alpha\Gamma_{1}(\mathbf{z}^{(t+1)},\mathbf{h}^{(t)})roman_Γ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( bold_z start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ) = italic_α roman_Γ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ( bold_z start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT )를 필요로 한다. R𝑅Ritalic_R는 자신의 파라미터를 유지할 수 있다(R1=R2subscript𝑅1subscript𝑅2R_{1}=R_{2}italic_R start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = italic_R start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT). it to a signal warped by a different τ2(t)subscript𝜏2𝑡\tau_{2}(t)italic_τ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( italic_t ) 오히려, 클래스 불변성은 게이트된 RNN들이 이들 신호들 모두를 동일한 방식으로 적합시킬 수 있을 만큼 충분히 강력하지만, 잠재적으로 매우 상이한 모델 파라미터들을 갖는다는 것을 보장할 뿐이다. 즉, 효과적인 게이팅 메커니즘이 워핑 유도체를 맞추는 것과 밀접하게 관련되어 있다는 깨달음은 이제 간략하게 보여주듯이 게이팅된 RNN 최적화에 대한 유용한 처방을 산출할 수 있다.

예를 들어, 우리는 종종 우리의 신호 내에서 추적에 관심이 있는 종속성의 범위가 [Tl,Th]subscript𝑇𝑙subscript𝑇[T_{l},T_{h}][ italic_T start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT , italic_T start_POSTSUBSCRIPT italic_h end_POSTSUBSCRIPT ] time-steps의 범위에 있을 것이라고 가정할 수 있다.

수학식 52에 대한 분석해를 분석하면, 우리의 게이티드 RNN에 의한 𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT의 특성 forgetting time1Γ(𝐳(t+1),𝐡(t))1Γsuperscript𝐳𝑡1superscript𝐡𝑡\frac{1}{\Gamma(\mathbf{z}^{(t+1)},\mathbf{h}^{(t)})}divide start_ARG 1 end_ARG start_ARG roman_Γ ( bold_z start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ) end_ARG에 비례함을 알 수 있다. 따라서 우리는 가정된 범위 내의 정보를 효과적으로 기억하기 위해 게이팅 값이 [1Th,1Tm]1subscript𝑇1subscript𝑇𝑚\left[\frac{1}{T_{h}},\frac{1}{T_{m}}\right][ divide start_ARG 1 end_ARG start_ARG italic_T start_POSTSUBSCRIPT italic_h end_POSTSUBSCRIPT end_ARG , divide start_ARG 1 end_ARG start_ARG italic_T start_POSTSUBSCRIPT italic_m end_POSTSUBSCRIPT end_ARG ] 사이에 놓이기를 원한다.

또한, 𝐳(t)superscript𝐳𝑡\mathbf{z}^{(t)}bold_z start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT가 대략 zero-centered - 레이어 정규화 (Ba et al., 2016)와 같은 변환을 적용하는 일반적인 부산물임 - 𝔼[Γ(𝐳(t+1),𝐡(t))]logistic(𝐛Γ)𝔼delimited-[]Γsuperscript𝐳𝑡1superscript𝐡𝑡logisticsubscript𝐛Γ\mathbb{E}[\Gamma(\mathbf{z}^{(t+1)},\mathbf{h}^{(t)})]\approx\mathrm{logistic}(\mathbf{b}_{\Gamma})blackboard_E [ roman_Γ ( bold_z start_POSTSUPERSCRIPT ( italic_t + 1 ) end_POSTSUPERSCRIPT , bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ) ] ≈ roman_logistic ( bold_b start_POSTSUBSCRIPT roman_Γ end_POSTSUBSCRIPT )라고 가정할 수 있다. 따라서 게이팅 메커니즘의 bias 벡터를 제어하는 것은 효과적인 게이트 값163163163163이 통찰력은 이미 Gers and Schmidhuber (2000); Jozefowicz et al. (2015)에 의해 발견되었으며, 그는 LSTM의 forget-gate 바이어스를 일정한 포지티브 벡터로 초기화하는 것을 경험적으로 권장했다.

두 관측치를 결합하면 𝐛Γlog(𝒰(Tl,Th)1)similar-tosubscript𝐛Γ𝒰subscript𝑇𝑙subscript𝑇1\mathbf{b}_{\Gamma}\sim-\log(\mathcal{U}(T_{l},T_{h})-1)bold_b start_POSTSUBSCRIPT roman_Γ end_POSTSUBSCRIPT ∼ - roman_log ( caligraphic_U ( italic_T start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT , italic_T start_POSTSUBSCRIPT italic_h end_POSTSUBSCRIPT ) - 1 )를 초기화하여 적절한 범위의 게이팅 값을 얻을 수 있으며, 여기서 𝒰𝒰\mathcal{U}caligraphic_U는 균일한 실수 분포이다. 이러한 권고안은 chrono initialisation by Tallec and Ollivier (2018)로 명명되었으며, 게이티드 RNN의 장거리 의존성 모델링을 개선하는 것으로 경험적으로 나타났다.

Sequence-to-sequence learning with RNNs

RNN-백된 계산을 사용하는 하나의 두드러진 역사적 예는 자연 언어들의 sequence-to-sequence 번역 작업들, 이를 테면 machine translation이다. 선구적인 seq2seq work by Sutskever et al. (2014) pass the summary vector, 𝐡(T)superscript𝐡𝑇\mathbf{h}^{(T)}bold_h start_POSTSUPERSCRIPT ( italic_T ) end_POSTSUPERSCRIPT as a decoder RNN, with output of RNN blocks is given for the next step.

Refer to caption
도 21:RNN 인코더 Rencsubscript𝑅encR_{\mathrm{enc}}italic_R start_POSTSUBSCRIPT roman_enc end_POSTSUBSCRIPT 및 RNN 디코더 Rdecsubscript𝑅decR_{\mathrm{dec}}italic_R start_POSTSUBSCRIPT roman_dec end_POSTSUBSCRIPT를 갖는 seq2seq 아키텍처의 전형적인 일례. 디코더는 인코더에서 나오는 최종 요약 벡터 𝐡(T)superscript𝐡𝑇\mathbf{h}^{(T)}bold_h start_POSTSUPERSCRIPT ( italic_T ) end_POSTSUPERSCRIPT로 시드된 후, autoregressive fashion: 각 단계에서, 이전 단계로부터의 예측된 출력은 Rdecsubscript𝑅decR_{\mathrm{dec}}italic_R start_POSTSUBSCRIPT roman_dec end_POSTSUBSCRIPT로 입력으로서 피드백된다. 병목 문제는 또한 빨간색 선과 함께 설명되며, 요약 벡터 𝐡(T)superscript𝐡𝑇\mathbf{h}^{(T)}bold_h start_POSTSUPERSCRIPT ( italic_T ) end_POSTSUPERSCRIPT는 입력 시퀀스를 번역하기 위한 all 관련 정보를 저장해야 하며, 이는 입력 길이가 증가함에 따라 점점 더 어려워진다.

이것은 요약 벡터 𝐡(T)superscript𝐡𝑇\mathbf{h}^{(T)}bold_h start_POSTSUPERSCRIPT ( italic_T ) end_POSTSUPERSCRIPT에 실질적인 표현 압력을 가했다. 딥 러닝의 컨텍스트 내에서, 𝐡(T)superscript𝐡𝑇\mathbf{h}^{(T)}bold_h start_POSTSUPERSCRIPT ( italic_T ) end_POSTSUPERSCRIPT는 때때로 bottleneck164164164[Uncaptioned image]
The bottleneck effect has recently received substantial attention in the graph representation learning community (Alon and Yahav, 2020), as well as neural algorithmic reasoning (Cappart et al., 2021).
으로 지칭된다. 그것의 고정된 용량은 대응하는 시퀀스를 생성하는 데 도움이 되는 방식으로, 전체 입력 시퀀스의 콘텐츠를 표현하기에 충분해야 하는 동시에, 실질적으로 상이한 길이의 입력 시퀀스도 지원한다(도 21).

실제로, 출력의 상이한 단계들은 입력의 상이한 부분들에 포커싱(attend)하기를 원할 수 있고, 이러한 모든 선택들은 병목 벡터를 통해 나타내기 어렵다. 이 관찰을 통해 인기 있는 recurrent attention 모델은 Bahdanau et al. (2014)에 의해 제안되었다. 처리의 모든 단계에서, query vector은 RNN에 의해 생성되며; 이 쿼리 벡터는 주로 이들에 대한 가중합을 계산함으로써 every time-step 𝐡(t)superscript𝐡𝑡\mathbf{h}^{(t)}bold_h start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT의 표현과 상호 작용한다. 이 모델은 신경 내용 기반 주의를 개척했으며 트랜스포머 모델의 성공을 앞섰다.

마지막으로, 참석하는 동안 입력 콘텐츠의 부분에 동적으로 초점을 맞추는 soft 방법을 제공하지만, 실질적인 작업도 입력에 주의를 집중시키는 더 많은 explicit 방법을 배웠다. 이렇게 하는 강력한 알고리즘 기반 방법은 pointer network Vinyals et al. (2015)variable-sized 입력의 요소를 가리키도록 허용하는 순환 주의의 간단한 수정을 제안한다. 그런 다음 이러한 발견은 포인터 네트워크 지원 LSTM에 의해 지원되는 seq2seq 모델을 정렬되지 않은 세트로 일반화하는 set2set 아키텍처 (Vinyals et al., 2016)로 일반화되었다.

6 Problems and Applications

불변과 대칭은 모두 실제 세계에서 발생하는 데이터에 걸쳐 너무 흔하게 발생한다. 따라서 21세기 기계 학습의 가장 인기 있는 응용 프로그램 중 일부가 기하학 딥 러닝의 직접적인 부산물로 발생했다는 것은 놀라운 일이 아니며, 아마도 때로는 이 사실을 완전히 깨닫지 못한 채 발생한다. 기하학적 딥 러닝에서 영향력 있는 작품과 흥미롭고 유망한 새로운 응용 프로그램에 대한 개요를 독자들에게 제공하고자 한다. 우리의 동기는 두 가지이다: 5개의 기하학 영역이 일반적으로 발생하는 과학 및 산업 문제의 특정 사례를 보여주고 기하학 딥러닝 원리와 아키텍처에 대한 추가 연구를 위한 추가 동기를 제공한다.

Chemistry and Drug Design

그래프에서 표현 학습의 가장 유망한 응용 프로그램 중 하나는 계산 화학 및 drug development이다. 165165165Many drugs are not designed but discovered, often serendipitously. The historic source of a number of drugs from the plant kingdom is reflected in their names: e.g., the acetylsalicylic acid, commonly known as aspirin, is contained in the bark of the willow tree (Salix alba), whose medicinal properties are known since antiquity. 전통 약물은 질병과 관련된 화학 과정을 활성화하거나 방해하기 위해 일반적으로 단백질인 일부 표적 분자에 화학적으로 부착(결합)되도록 설계된 작은 분자이다. 불행히도, 약물 개발은 매우 길고 비용이 많이 드는 과정입니다: 신약을 시장에 출시할 때 일반적으로 10년 이상이 걸리고 10억 달러 이상의 비용이 듭니다. 그 이유 중 하나는 많은 약물이 다른 단계에서 실패하는 테스트 비용인데, 후보의 5% 미만이 마지막 단계로 도달한다(예: Gaudelet et al. (2020) 참조).

화학적으로 합성 가능한 분자의 공간이 매우 크기 때문에(<수학 idx=0>을 중심으로 추정됨), 표적 결합 친화도, 낮은 독성, 용해도 등과 같은 특성이 적절히 조합된 후보 분자를 탐색한다. 실험적으로 수행할 수 없으며, virtual 또는 in silico screening (즉, 유망한 분자를 식별하기 위한 계산 기술의 사용)이 사용된다. 기계 학습 기술은 이 작업에서 점점 더 두드러진 역할을 한다. 가상 약물 스크리닝을 위한 Geometric Deep Learning 사용의 두드러진 예는 모델 박테리아 Escherichia coli에서 후보 분자가 성장을 억제하는지 여부를 예측하도록 훈련된 그래프 신경망을 사용하여 Stokes et al. (2020)에 의해 최근에 나타났으며, 이는 당뇨병 치료를 위해 원래 표시된 분자인 Halicin이 알려져 있는 항생제 내성을 가진 박테리아 균주에 대해서도 매우 강력한 항생제임을 효과적으로 발견할 수 있었다. 이 발견은 과학 및 대중 언론에서 널리 다뤄졌다.

보다 광범위하게 말하면, 그래프로 모델링된 분자에 대한 그래프 신경망의 적용은 매우 활발한 분야였으며, 최근 물리학에서 영감을 받아 회전 및 변환에 대한 등분성을 통합하는 여러 전문화된 아키텍처가 제안되었다(예: Thomas et al. (2018); Anderson et al. (2019); Fuchs et al. (2020); Satorras et al. (2021) 참조). 또한, Bapst et al. (2020)는 이전에 사용 가능한 물리 기반 모델을 능가하는 방식으로 유리의 역학을 예측적으로 모델링하기 위한 GNN의 유용성을 성공적으로 입증했다. 역사적으로 계산 화학의 많은 작업은 많은 공통 특성을 공유하는 현대 그래프 신경망 구조의 전구체였다.

Drug Repositioning

완전히 새로운 약물 후보를 생성하는 것은 잠재적으로 실행 가능한 접근법이지만, 새로운 치료법을 개발하기 위한 더 빠르고 저렴한 방법은 새로운 목적으로 이미 승인된 약물(단독 또는 조합)을 평가하려는 약물 재배치이다. 이것은 종종 약물을 시장에 출시하는 데 필요한 임상 평가의 양을 상당히 감소시킨다. 어느 정도 추상화 수준에서 신체 생화학에 대한 약물의 작용과 서로와 다른 생체 분자 사이의 상호 작용은 그래프로 모델링될 수 있으며, 이는 저명한 네트워크 과학자 알베르트-라슬로 바라바시가 만든 '네트워크 의학' 개념을 생성하고 새로운 치료법을 개발하기 위해 생물학적 네트워크(단백질-단백질 상호작용 및 대사 경로 등)의 사용을 옹호한다(Barabási et al., 2011)

기하학적 딥 러닝은 이러한 종류의 접근법에 대한 현대적인 견해를 제공한다. 눈에 띄는 초기 예는 그래프 신경망을 사용하여 약물-약물 상호작용 그래프에서 에지 예측으로 공식화된 combinatorial therapy 또는 polypharmacy으로 알려진 약물 재배치 형태로 부작용을 예측하는 Zitnik et al. (2018)의 작업이다. 이 글을 쓸 당시 주로 진행 중인 신종 코로나바이러스 팬데믹은 코로나19 (Gysi et al., 2020)에 대해 이러한 접근법을 적용하려는 시도에 특별한 관심을 불러일으켰다. 마지막으로, 약물 재배치가 반드시 합성 분자로 제한되는 것은 아니라는 점에 유의해야 한다: Veselkov et al. (2019)는 식품에 포함된 약물 유사 분자에 유사한 접근법을 적용했다(언급했듯이 많은 식물성 식품에는 종양 치료에 사용되는 화합물의 생물학적 유사체가 포함되어 있기 때문이다). 이 텍스트의 저자 중 한 명은 이러한 약물 같은 분자가 풍부한 '하이퍼푸드' 성분을 기반으로 흥미로운 레시피를 설계하는 분자 셰프와 협력함으로써 이 연구에 창의적인 반전을 추가하는 협업에 참여한다.

Protein biology

우리는 이미 단백질을 약물 표적으로 언급했기 때문에 이 주제에 대해 몇 분 더 시간을 보낼 수 있습니다. 단백질은 병원체(항체)에 대한 보호, 피부에 구조 부여(콜라겐), 세포로 산소 수송(헤모글로빈), 화학 반응 촉매(효소), 신호 전달(많은 호르몬은 단백질)을 포함하여 우리 몸에서 무수히 많은 기능을 가진 가장 중요한 생체 분자 중 하나이다. 화학적으로 말하면 단백질은 바이오폴리머 또는 정전기력의 영향을 받아 복잡한 3D 구조로 접히는 아미노산이라고 하는 작은 빌딩 블록의 사슬이다. 단백질에 기능을 부여하는 것은 이 구조이며, 167167167A common metaphor, dating back to the chemistry Nobel laureate Emil Fischer is the Schlüssel-Schloss-Prinzip (‘key-lock principle’, 1894): two proteins often only interact if they have geometrically and chemically complementary structures. 이므로 단백질이 어떻게 작동하고 무엇을 하는지 이해하는 데 중요하다. 단백질은 약물 요법의 일반적인 표적이기 때문에 제약 산업은 이 분야에 대한 관심이 높다.

단백질 생물정보학에서 문제의 전형적인 계층은 단백질 sequence (20개의 서로 다른 아미노산의 알파벳에 걸쳐 있는 1D 문자열)에서 3D structure (‘단백질 접힘’으로 알려진 문제)에서 function (‘단백질 기능 예측’). DeepMind's AlphaFold by Senior et al. (2020)와 같은 최근 접근법은 단백질 구조를 나타내기 위해 contact graphs을 사용했다. Gligorijevic et al. (2020)는 이러한 그래프에 그래프 신경망을 적용하면 순전히 시퀀스 기반 방법을 사용하는 것보다 더 나은 함수 예측을 달성할 수 있음을 보여주었다.

Gainza et al. (2020) developed168168168 [Uncaptioned image]
Oncologial target PD-L1 protein surface (heat map indicated the predicted binding site) and the designed binder (shown as ribbon diagram).
a Geometric Deep Learning pipeline called MaSIF predicting proteins between their 3D structure. MaSIF는 단백질을 메쉬로 이산화한 분자 표면으로 모델링하며, 이 표현이 내부 접힘 구조를 추상화할 수 있기 때문에 상호작용을 다룰 때 유리하다고 주장한다. 이 구조는 작은 지역 측지 패치에서 미리 계산된 화학적 및 기하학적 특징으로 작동하는 메쉬 합성곱 신경망을 기반으로 했다. 네트워크는 인터페이스 예측, 리간드 분류 및 도킹을 포함한 여러 작업을 다루기 위해 단백질 데이터 뱅크의 몇 천 개의 공동 결정 단백질 3D 구조를 사용하여 훈련되었으며 de novo (‘from scratch’) 암에 대한 생물학적 면역 치료 약물로 작용할 수 있는 단백질의 설계를 허용했다. 이러한 단백질은 프로그래밍된 세포 사멸 단백질 복합체(PD-1/PD-L1)의 부분 사이의 단백질-단백질 상호작용(PPI)을 억제하고 면역 시스템에 종양 세포를 공격하는 능력을 제공하도록 설계되었다.

Recommender Systems and Social Networks

그래프 표현 학습의 첫 번째 대중화된 대규모 애플리케이션은 주로 소셜 네트워크169169169[Uncaptioned image] 추천 시스템의 맥락에서 발생했다. 추천인은 잠재적으로 서비스에 대한 이전 상호 작용 이력에 따라 사용자에게 제공할 콘텐츠를 결정하는 작업을 수행합니다. 이것은 전형적으로 링크 예측 objective: 다양한 노드(콘텐츠의 조각)의 임베딩을 감독하여 이들이 related (예를 들어, 일반적으로 함께 보기)로 간주되는 경우 서로 가깝게 유지되도록 한다. 그런 다음 두 임베딩(예: 내부 곱)의 proximity은 콘텐츠 그래프의 에지에 의해 링크될 확률로 해석될 수 있으며, 따라서 사용자가 쿼리하는 모든 콘텐츠에 대해 하나의 접근법은 임베딩 공간에서 자신의 k𝑘kitalic_k 가장 가까운 이웃을 제공할 수 있다.

이 방법론의 선구자 중에는 미국 이미지 공유 및 소셜 미디어 회사인 Pinterest가 있다: 생산에서 GNN의 첫 번째 성공적인 배포 중 하나를 제시하는 것 외에도, 그들의 방법, PinSage170170170Pinterest had also presented follow-up work, PinnerSage (Pal et al., 2020), which effectively integrates user-specific contextual information into the recommender.은 그래프 표현 학습 scalable을 수백만 개의 노드와 수십억 개의 에지 (Ying et al., 2018)의 그래프로 성공적으로 만들었다. 특히 제품 권장 사항의 공간에서 관련 응용 프로그램이 곧 뒤따랐다. 현재 생산에 배포되는 인기 있는 GNN 지원 추천으로는 Alibaba's Aligraph (Zhu et al., 2019)와 Amazon's P-Companion (Hao et al., 2020)가 있다. 이러한 방식으로, 그래프 딥 러닝은 매일 수백만 명의 사람들에게 영향을 미치고 있다.

소셜 네트워크에 대한 콘텐츠 분석의 맥락에서 또 다른 주목할 만한 노력은 (2019년, 트위터에 의해) 첫 번째 GNN 기반 스타트업 중 하나인 파불라 AI이다. 본문과 그의 팀의 저자 중 한 명이 설립한 이 스타트업은 소셜 네트워크 (Monti et al., 2019)에서 잘못된 정보를 탐지하는 새로운 기술을 개발했다. 파불라의 해결책은 특정 뉴스 아이템의 확산을 공유한 사용자들의 네트워크에 의해 모델링하는 것으로 구성된다. 사용자는 한 사람이 다른 사람으로부터 정보를 다시 공유하면 연결되지만 소셜 네트워크에서 서로 팔로우하면 연결됩니다. 그런 다음 이 그래프는 그래프 신경망에 공급되어 전체 그래프를 사실 확인 본체 간의 일치를 기반으로 하는 레이블과 함께 '참' 또는 '가짜' 내용으로 분류한다. 빠른 속도로 안정되는 강력한 예측력(종종 뉴스 확산 후 몇 시간 이내)을 입증하는 것 외에도 개별 사용자 노드의 임베딩을 분석한 결과 잘못된 정보를 공유하는 경향이 있는 사용자의 명확한 군집링이 나타났으며 잘 알려진 'echo chamber' 효과를 예시했다.

Traffic forecasting

교통 네트워크는 또 다른 영역171171171[Uncaptioned image]
[Uncaptioned image]
A road network (top) with its corresponding graph representation (bottom).
여기서 Geometric Deep Learning 기술은 이미 전 세계적으로 수십억 명의 사용자에 대해 실행 가능한 영향을 미치고 있다. 예를 들어, 도로 네트워크 상에서, 우리는 교차로를 노드로서 관찰할 수 있고, 도로 세그먼트들을 이들을 연결하는 에지들로서 관찰할 수 있다 - 이 에지들은 그 후 도로 길이, 그들의 세그먼트를 따른 현재 또는 과거 속도들 등에 의해 특성화될 수 있다.

이 공간의 표준 예측 문제 중 하나는 estimated time of arrival (ETA): 주어진 후보 경로에 대해, 이를 횡단하는 데 필요한 예상 이동 시간을 제공하는 것이다. 이러한 문제는 사용자 대면 트래픽 추천 앱뿐만 아니라 자체 운영 내에서 이러한 예측을 활용하는 기업(음식 배달 또는 승차 공유 서비스와 같은)의 경우에도 이 공간에서 필수적이다.

그래프 신경망 172172172[Uncaptioned image]
Several of the metropolitan areas where GNNs are serving queries within Google Maps, with indicated relative improvements in prediction quality (40+% in cities like Sydney).
have shown immense promise in this space: they can, 예를 들어, 도로 네트워크의 관련 서브 그래프에 대한 ETA를 직접 예측하는 데 사용될 수 있다(효과적으로, a graph regression task). 이러한 접근법은 딥마인드에 의해 성공적으로 활용되어 현재 Google Maps (Derrow-Pinion et al., 2021)에서 생산에 배포되는 GNN 기반 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 예상 이동 시간 예측이 현재 ConSTGAT 모델에 의해 제공되는 바이두 지도 팀에 의해 유사한 수익이 관찰되었으며, 이는 그래프 주의 네트워크 모델 (Fang et al., 2020)의 시공간 변형을 기반으로 한다.

Object recognition

컴퓨터 비전에서 기계 학습에 대한 주요 벤치마크인 173173173[Uncaptioned image]
One example input image, the likes of which can be found in ImageNet, representing the “tabby cat” class.
techniques는 [em class="ltx_emph ltx_font_italic" id="Ch0.S6.SS0.SSS0.Px6.p1.1.1">classify
a central object within a provided image. ImageNet 대규모 시각 인식 챌린지 (Russakovsky et al., 2015, ILSVRC)는 기하 딥러닝 초기 개발의 많은 부분을 추진한 연간 객체 분류 챌린지였다. ImageNet은 웹에서 긁어낸 사실적인 이미지를 1000개의 카테고리 중 하나로 분류하기 위해 모델을 필요로 한다: 그러한 카테고리는 동시에 다양하며(생물과 무생물 모두를 포함함), 특정적이다(다양한 고양이와 개의 품종을 구별하는 데 중점을 둔 많은 클래스와 함께). 따라서 ImageNet에서 우수한 성능은 일반적인 사진에서 고체 수준의 특징 추출을 암시하며, 이는 다양한 transfer learning preset-trained ImageNet 모델의 설정을 위한 기초를 형성했다.

ImageNet에서 컨볼루션 신경망의 성공, 특히 ILSVRC 2012를 큰 마진으로 휩쓸었던 Krizhevsky et al. (2012)의 AlexNet 모델은 학계와 산업계 모두에서 전반적으로 딥 러닝의 채택을 주도했다. 그 이후로 CNN은 VGG-16 (Simonyan and Zisserman, 2014)174174174Interestingly, the VGG-16 architecture has sixteen convolutional layers and is denoted as “very deep” by the authors. Subsequent developments quickly scaled up such models to hundreds or even thousands of layers., Inception (Szegedy et al., 2015) 및 ResNets (He et al., 2016)와 같은 많은 인기 있는 아키텍처를 출시하면서 ILSVRC의 상위 순위에 지속적으로 올랐으며, 이는 이 작업에서 인간 수준의 성능을 성공적으로 능가했다. 이러한 아키텍처에 의해 사용되는 설계 결정 및 정규화 기술(예: 정류된 선형 활성화 (Nair and Hinton, 2010), 드롭아웃 (Srivastava et al., 2014), 스킵 연결 (He et al., 2016) 및 배치 정규화 (Ioffe and Szegedy, 2015))은 오늘날 사용되는 많은 효과적인 CNN 모델의 백본을 형성한다.

객체 분류와 동시에 객체 detection; 즉, 이미지 내에서 모든 관심 객체를 분리하고 특정 클래스로 태그를 지정합니다. 이러한 작업은 이미지 캡셔닝에서부터 자율 주행 차량에 이르기까지 다양한 다운스트림 문제와 관련이 있다. 예측이 localised이어야 하므로 보다 세분화된 접근법이 필요하다. 이 공간의 한 가지 영향력 있는 예는 모델 (Girshick et al., 2014; Girshick, 2015; Ren et al., 2015; He et al., 2017)의 R-CNN 계열을 포함하는 반면, semantic segmentation, Badrinarayanan et al. (2017)의 SegNet 모델은 VGG-16 백본에 의존하는 인코더-디코더 아키텍처로 영향력이 있음이 입증되었다.

Game playing

컨볼루션 신경망은 또한 reinforcement learning (RL) 환경에서 번역 불변 특징 추출기로서 두드러진 역할을 하며, 관측된 상태가 그리드 도메인에서 표현될 수 있을 때마다; 예를 들어, 픽셀로부터 비디오 게임을 플레이하는 것을 학습하는 경우이다. 이 경우 CNN은 입력을 플랫 벡터 표현으로 줄이는 역할을 하며, 그 다음 RL 에이전트의 동작을 구동하는 policy 또는 value functions을 유도하는 데 사용된다. 강화 학습의 세부 사항은 이 섹션의 초점이 아니지만, 우리는 지난 10년 동안 딥 러닝의 가장 영향력 있는 결과 중 일부가 CNN 지원 강화 학습을 통해 발생했다는 점에 주목한다.

여기서 확실히 언급할 가치가 있는 하나의 특정 예는 DeepMind의 AlphaGo (Silver et al., 2016)이다. 배치된 돌들의 현재 위치를 나타내는 19×19191919\times 1919 × 19 격자에 CNN을 적용하여 바둑의 게임 내에서 현재 상태를 인코딩한다. 이어 이전 전문가 동작 학습과 몬테카를로 트리 탐색, 셀프 플레이의 조합을 통해 전 세계적으로 널리 알려진 5라운드 챌린지 매치에서 역대 바둑 최강자 중 한 명인 이세돌을 능가할 정도로 바둑 숙달 수준에 성공적으로 도달했다.

이는 이미 광범위한 인공 지능을 위한 중요한 이정표를 나타냈지만, 예를 들어, chess175175175[Uncaptioned image] Go의 게임은 19×19191919\times 1919 × 19 보드에서 플레이되며, 두 플레이어는 빈 필드에 흰색 및 검은색 2×10170absent2superscript10170\approx 2\times 10^{170}≈ 2 × 10 start_POSTSUPERSCRIPT 170 end_POSTSUPERSCRIPT (Tromp and Farnebäck, 2006)에서 추정되었다. —AlphaGo의 발전은 거기서 멈추지 않았다. 저자들은 AlphaGo Zero removing human bias, optimising purely through self-play (Silver et al., 2017), AlphaZero 확장 이 알고리즘을 Chess 및 Shogi와 같은 관련 두 플레이어 게임으로 확장합니다. 마지막으로 MuZero (Schrittwieser et al., 2020)

수년에 걸쳐 아타리 2600 플랫폼을 위해 여러 고성능 RL 에이전트가 제안되었지만, 오랫동안 제공된 57개 게임의 all에서 인간 수준의 성능에 도달할 수 없었다. 이 장벽은 마침내 에이전트57 (Badia et al., 2020)로 깨졌는데, 이는 강력한 탐색적 정책에서 순수하게 착취적 정책에 이르기까지 파라메트릭 정책 패밀리를 사용하고 훈련의 여러 단계에서 서로 다른 방식으로 우선순위를 매겼다. 그것은 또한 비디오 게임의 프레임 버퍼에 적용된 CNN에 의해 계산의 대부분을 구동한다.

Text and speech synthesis

이미지(자연적으로 two-dimensional grid) 외에도 여러 (기하학적) 딥 러닝의 가장 강력한 성공이 1차원 그리드에서 발생했습니다. 이의 자연적인 예로는 textspeech, folding the Geometric Deep Learning blueprint within various areas including natural language processing and digital signal processing.

이 공간에서 가장 널리 적용되고 널리 알려진 작업 중 일부는 synthesis: being able to generate speech or text, unconditionally or conditioned on a specific prompt에 초점을 맞춘다. 이러한 설정은 text-to-speech (TTS), 예측 텍스트 완료 및 기계 번역과 같은 많은 유용한 작업을 지원할 수 있습니다. 텍스트 및 음성 생성을 위한 다양한 신경망 구조가 지난 10년 동안 제안되었는데, 초기에는 대부분 recurrent 신경망(예를 들어, 전술한 seq2seq 모델 (Sutskever et al., 2014) 또는 recurrent attention (Bahdanau et al., 2014))을 기반으로 한다. 그러나 최근에는 합성곱 신경망과 트랜스포머 기반 아키텍처로 점차 대체되고 있다.

이 설정에서 간단한 1D 컨볼루션의 한 가지 특별한 한계는 지금까지 생성된 시퀀스를 커버하기 위해 많은 레이어를 필요로 하는 선형 성장 receptive field이다. Dilated176176176Dilated convolution is also referred to as à trous convolution (literally “holed” in French).convolutions, instead, offer a exponentially growing receptive field with a equivalent number of parameters. 이로 인해, 그들은 모든 입력 위치에 대한 병렬성으로 인해 계산 복잡도를 크게 줄이면서 기계 번역 (Kalchbrenner et al., 2016)에서 RNN과 경쟁하게 되는 매우 강력한 대안을 입증했다. 177177177Such techniques have also outperformed RNNs on problems as diverse as protein-protein interaction (Deac et al., 2019).The most well-known application of dilated convolutions is WaveNet model from van den Oord et al. (2016a). WaveNets는 확장을 사용하여 raw waveform (일반적으로 초당 16,000 샘플 이상) 수준에서 음성을 합성할 수 있음을 보여주었으며, 최고의 이전 텍스트 음성 변환(TTS) 시스템178178178Besides this, the WaveNet model proved capable of generating piano pieces.보다 훨씬 더 "인간과 유사한" 음성 샘플을 생성했다. 그 후, WaveNets의 계산이 훨씬 더 간단한 모델인 WaveRNN (Kalchbrenner et al., 2018)에서 증류될 수 있음을 추가로 입증했으며 이 모델은 산업 규모에서 이 기술을 효과적으로 배포할 수 있도록 했다. 이를 통해 Google Assistant와 같은 서비스에 대한 대규모 음성 생성을 위한 배포뿐만 아니라 종단 간 암호화를 사용하는 Google Duo와 같은 효율적인 온-디바이스 계산을 가능하게 했다.

트랜스포머 (Vaswani et al., 2017)는 리커런트 및 컨벌루션 아키텍처 모두의 한계를 능가했으며, self-attention은 기계 번역에서 최첨단 성능을 달성하는 데 충분합니다. 그 후, 그들은 자연어 처리에 혁명을 일으켰다. BERT (Devlin et al., 2018)와 같은 모델에서 제공하는 사전 훈련된 임베딩을 통해, 자연어 처리의 많은 다운스트림 애플리케이션에 대해 트랜스포머 계산이 가능하게 되었다. 예를 들어, 구글은 검색 엔진에 전력을 공급하기 위해 BERT 임베딩을 사용한다.

틀림없이 지난 몇 년 동안 트랜스포머의 가장 널리 퍼진 응용 프로그램은 텍스트 생성이며, 주로 OpenAI에서 모델들의 Generative Pre-trained Transformer (GPT, Radford et al. (2018, 2019); Brown et al. (2020)) 계열에 의해 자극된다. 특히, GPT-3 (Brown et al., 2020)는 스크래핑된 텍스트 말뭉치의 웹 스케일 양에 대한 다음 단어 예측에 대해 훈련된 1,750억 개의 학습 가능한 매개변수로 언어 모델 학습을 성공적으로 확장했다. 이를 통해 다양한 언어 기반 과제에서 높은 잠재력을 가진 소수 샷 학습자가 될 수 있을 뿐만 아니라 일관되고 인간다운 텍스트 조각을 생성할 수 있는 능력을 갖춘 텍스트 생성기가 될 수 있었다. 이 기능은 많은 양의 다운스트림 응용 프로그램을 암시할 뿐만 아니라 방대한 미디어 보도를 유도했다.

Healthcare

의료 영역에서의 응용은 기하 딥러닝의 또 다른 유망한 분야이다. 이러한 방법들이 사용되고 있는 방법은 여러 가지가 있다. 먼저, CNN과 같은 보다 전통적인 아키텍처는 예를 들어, 중환자실 입원 기간 예측 (Rocheteau et al., 2020) 또는 망막 스캔 (De Fauw et al., 2018)로부터 시력을 위협하는 질병의 진단을 위해 격자 구조 데이터에 적용되었다. Winkels and Cohen (2019)는 3D 로토-번역 그룹 컨볼루션 네트워크를 사용하면 기존 CNN에 비해 폐 결절 검출의 정확도가 향상됨을 보여주었다.

둘째, 기하학적 표면으로 장기를 모델링하는 메쉬 합성곱 신경망은 유전학 관련 정보 (Mahdi et al., 2020)에서 얼굴 구조를 재구성하는 것부터 뇌 피질 부분 세포화 (Cucurull et al., 2018)에서 피질 표면 구조 (Besson et al., 2020)에서 인구통계학적 특성을 회귀하는 것까지 다양한 작업을 다룰 수 있는 것으로 나타났다. 후자의 예는 뇌를 복잡한 주름179179179Such structure of the brain cortex are called sulci and gyri in anatomical literature.이 매우 비유클리드 구조로 증가하는 표면으로 간주하려는 신경과학의 증가 추세를 나타낸다.

동시에, 신경과학자들은 종종 일부 인지 기능을 수행할 때 함께 활성화되는 뇌의 다양한 영역을 나타내는 뇌의 기능적 네트워크을 구성 및 분석하려고 시도하며, 이러한 네트워크는 종종 뇌의 어떤 영역이 더 많은 혈액을 소비하는지 실시간으로 보여주는 기능적 자기 공명 영상(fMRI)을 사용하여 구성된다. 180180180Typically, Blood Oxygen-Level Dependent (BOLD) contrast imaging is used. 이러한 기능적 네트워크는 환자 인구통계(예: 남성과 여성을 구분, Arslan et al. (2018))를 드러낼 수 있을 뿐만 아니라 신경병리학적 진단에 사용될 수 있으며, 이는 의학에서 기하학 딥 러닝의 세 번째 응용 분야이다. 이러한 맥락에서 Ktena et al. (2017)는 자폐 스펙트럼 장애와 같은 신경학적 상태의 예측을 위한 그래프 신경망의 사용을 개척했다. 뇌의 기하학적 구조와 기능적 구조는 밀접한 관련이 있는 것으로 보이며, 최근 Itani and Thanou (2021)는 신경학적 질환 분석에서 이들을 공동으로 활용하는 것의 이점을 지적했다.

넷째, patient networks은 ML 기반 의료 진단에서 더욱 두드러지고 있다. 이러한 방법의 근거는 환자 인구통계학적, 유전형 및 표현형 유사성의 정보가 질병 예측을 개선할 수 있다는 것이다. Parisot et al. (2018)는 신경학적 질환 진단을 위한 인구통계학적 특징으로부터 생성된 환자의 네트워크에 그래프 신경망을 적용하여 그래프의 사용이 예측 결과를 향상시킨다는 것을 보여준다. Cosmo et al. (2020)는 이 설정에서 잠재 그래프 학습의 이점(이에 의해 네트워크 learns a unknown patient graph)을 보여주었다. 후자의 연구는 뇌 영상 (Miller et al., 2016)를 포함한 의료 데이터의 대규모 모음인 UK Biobank의 데이터를 사용했다.

병원 환자에 대한 풍부한 데이터는 electronic health records (EHRs)181181181Publicly available anonymised critical-care EHR datasets include MIMIC-III (Johnson et al., 2016) and eICU (Pollard et al., 2018).에서 찾을 수 있다. 환자의 진행에 대한 포괄적인 보기를 제공하는 것 외에도 EHR 분석을 통해 relating 유사한 환자를 함께 사용할 수 있다. 이는 진단에서 일반적으로 사용되는 패턴 인식 방법과 일치합니다. 따라서 임상의는 임상 특성의 패턴을 인식하기 위해 experience을 사용하며 임상의의 경험이 상태를 빠르게 진단할 수 있도록 할 때 사용되는 주요 방법일 수 있다. 이러한 선을 따라 여러 연구에서 의사의 노트 (Malone et al., 2018), 입원 (Rocheteau et al., 2021)에 대한 진단 유사성 또는 완전히 연결된 그래프 (Zhu and Razavian, 2019)의 임베딩을 분석하여 EHR 데이터를 기반으로 환자 그래프를 구성하려고 시도한다. 모든 경우에, EHR을 처리하기 위해 그래프 표현 학습을 사용하는 것이 유리한 결과가 나타났다.

Particle physics and astrophysics

고에너지 물리학자들은 아마도 새로운 빛나는 도구인 그래프 신경망을 채택한 자연 과학 분야의 첫 번째 도메인 전문가 중 하나일 것이다. 최근 리뷰 논문 Shlomi et al. (2020)182182182[Uncaptioned image] Part of the Large Hadron Collider detectors. 은 기계 학습이 역사적으로 입자 물리 실험에 많이 사용되어 왔음을 지적하며, 검출기에서 측정된 정보로부터 기본 물리 과정을 추론할 수 있는 복잡한 역함수를 학습하거나 분류 및 회귀 작업을 수행한다. 후자의 경우 CNN과 같은 표준 딥러닝 아키텍처를 사용할 수 있기 위해 데이터를 그리드와 같은 부자연스러운 표현으로 강제할 필요가 종종 있었다. 그러나 물리학의 많은 문제는 풍부한 관계와 상호 작용을 가진 무질서 집합 형태의 데이터를 포함하며, 이는 자연스럽게 그래프로 표현될 수 있다.

고에너지 물리학에서 중요한 응용 프로그램 중 하나는 particle jets – 단일 초기 이벤트에서 비롯된 입자의 여러 연속 상호작용 및 부패로 인해 발생하는 안정적인 입자의 스프레이입니다. CERN에 구축된 가장 크고 가장 잘 알려진 입자 가속기인 Large Hardon Collider에서 이러한 제트는 거의 빛의 속도로 양성자가 충돌한 결과이다. 이러한 충돌은 힉스 보손이나 꼭대기 쿼크와 같은 거대한 입자를 생성한다. 충돌 사건의 식별 및 분류는 새로운 입자의 존재에 대한 실험적 증거를 제공할 수 있기 때문에 매우 중요하다.

Multiple Geometric Deep Learning approaches 183183183[Uncaptioned image] Example of a particle jet. 은 DeepSet과 Dynamic Graph CNN 아키텍처를 기반으로 입자 제트 분류 작업(particle jet classification task)을 위해 최근에 제안되었다. 보다 최근에, 또한, 물리학적 고려로부터 유도된 특수화된 아키텍처를 개발하고 해밀토니안 또는 라그랑지안 역학(예를 들어, Sanchez-Gonzalez et al. (2019); Cranmer et al. (2020) 참조), 로렌츠 그룹에 대한 등분산(물리학에서 공간과 시간의 기본 대칭) (Bogatskiy et al., 2020) 또는 심지어 기호 추론 (Cranmer et al., 2019)를 통합하고 데이터로부터 물리 법칙을 학습할 수 있는 것에 대한 관심이 있었다. 이러한 접근법은 더 해석 가능하고(따라서 도메인 전문가에 의해 더 '신뢰할 수 있는' 것으로 간주됨) 더 나은 일반화를 제공한다.

입자 가속기 외에도 입자 검출기는 현재 천체물리학자에 의해 동일한 소스에서 오는 전자기 방사선, 중력파 및 중성미자와 같은 이질적인 신호의 조정된 관찰의 새로운 방식인 multi-messenger 천문학에 대해 사용되고 있다. 중성미자는 물질과 거의 상호작용하지 않으므로 실질적으로 영향을 받지 않고 엄청난 거리를 이동하기 때문에 중성미자 천문학이 특히 중요하다. 184184184[Uncaptioned image] The characteristic pattern of light deposition in IceCube detector from background events (muon bundles, left) and astrophysical neutrinos (high-energy single muon, right). Choma et al. (2018) 탐지 중성미자는 광학 망원경에 접근할 수 없는 물체를 관찰할 수 있지만 엄청나게 큰 크기의 탐지기가 필요합니다 – IceCube 중성미자 관측소는 남극 대륙 빙붕의 입방 킬로미터를 탐지기로 사용합니다. 고에너지 중성미자를 탐지하면 블레이저와 블랙홀과 같은 우주에서 가장 신비로운 물체들 중 일부를 밝힐 수 있다. Choma et al. (2018)는 기하학 신경망을 사용하여 IceCube 중성미자 검출기의 불규칙한 기하학을 모델링하여 천체 물리학 소스에서 나오는 중성미자를 감지하고 배경 이벤트에서 분리하는 데 훨씬 더 나은 성능을 보여준다.

중성미자 천문학이 코스모스 연구에서 큰 가능성을 제시하지만, 전통적인 광학 망원경과 전파 망원경은 여전히 천문학자들의 ‘전투 말’이다. 이러한 전통적인 도구를 통해 기하 딥러닝은 여전히 데이터 분석을 위한 새로운 방법론을 제공할 수 있다. 예를 들어, Scaife and Porter (2021)는 무선 은하의 분류를 위해 회전 방정식의 CNN을 사용했고, McEwen et al. (2021)는 원시 우주의 형성을 밝힐 수 있는 빅뱅의 유물인 우주 마이크로파 배경 복사의 분석을 위해 구형 CNN을 사용했다. 이미 언급했듯이 그러한 신호는 구에 자연스럽게 표현되며 등분산 신경망은 이를 연구하기 위한 적절한 도구이다.

Virtual and Augmented Reality

기하학적 딥 러닝 방법의 큰 클래스 개발의 동기로 작용한 또 다른 응용 분야는 특히 가상 및 증강 현실을 위한 3D 신체 모델을 다루는 컴퓨터 비전 및 그래픽이다. 아바타와 같은 영화에서 특수 효과를 생성하는 데 사용되는 모션 캡처 기술은 종종 두 단계로 작동한다: 첫째, 신체의 모션 또는 배우의 얼굴을 캡처하는 3D 스캐너로부터의 입력은 일반적으로 이산 다양체 또는 메쉬로 모델링되는 일부 표준 모양과 대응된다(이 문제는 종종 '분석'이라고 함). 둘째, 새로운 형상을 생성하여 입력의 동작을 반복한다('합성'). 컴퓨터 그래픽스 및 비전 (Masci et al., 2015; Boscaini et al., 2016a; Monti et al., 2017) 개발 메쉬 합성곱 신경망의 기하학적 딥러닝에 대한 초기 작업은 분석 문제, 특히 변형 가능한 형상 대응 문제를 해결하기 위해 수행된다.

3D 형상 합성을 위한 최초의 기하학적 오토인코더 구조는 Litany et al. (2018)Ranjan et al. (2018)에 의해 독립적으로 제안되었다. 이 구조들에서, (신체, 얼굴, 또는 손의) 표준 메시가 알려진 것으로 가정되었고, 합성 태스크는 노드들의 3D 좌표(미분 기하학의 전문 용어를 사용하여 표면의 임베딩)를 회귀시키는 것으로 구성되었다. Kulon et al. (2020)는 이미지 CNN 기반 인코더와 기하학적 디코더를 사용하여 3D 손 포즈 추정을 위한 185185185 [Uncaptioned image]
Examples of complex 3D hand poses reconstructed from 2D images in the wild (Kulon et al., 2020).
a 하이브리드 파이프라인을 보여주었다. 영국 스타트업 기업 아리엘 AI와 협업해 개발해 CVPR 2020에 선보인 이 시스템의 데모는 휴대전화로 입력되는 비디오에서 완전히 관절이 달린 손으로 실감나는 바디 아바타를 실시간보다 빠르게 만들 수 있도록 했다. 애리얼 AI는 2020년 스냅에 인수됐고, 기술 작성 당시 스냅의 증강현실 제품에 활용된다.

7 Historic Perspective

“대칭은 그 의미를 정의할 수 있는 만큼 넓거나 좁다는 것은 시대의 인간이 질서, 아름다움, 완벽함을 이해하고 창조하려고 노력한 하나의 아이디어이다.” 186186186 [Uncaptioned image] The tetrahedron, cube, octahedron, dodecahedron, and icosahedron are called Platonic solids. 이 다소 시적인 대칭의 정의는 위대한 수학자 헤르만 Weyl (2015), 그의 Schwanengesang이 프린스턴 고등 연구소의 은퇴 전야에 쓴 시에서 주어진다. 바일은 수메르의 대칭 디자인에서 원은 회전 대칭으로 인해 완벽하다고 믿었던 피타고라스인들에 이르기까지 과학과 예술에서 특별한 장소 대칭이 차지해 온 흔적을 추적한다. 플라톤은 오늘날 그의 이름이 새겨진 다섯 개의 정다면체를 매우 근본적인 것으로 간주하여 물질 세계를 형성하는 기본 구성 요소가 되어야 한다. 그러나 플라톤은 문자 그대로 '동일한 척도'로 번역되는 ςυμμετρία라는 용어를 만든 것으로 인정받지만, 그는 예술에서의 비례의 아름다움과 음악의 조화를 전달하기 위해 막연하게만 사용했다. 천문학자이자 수학자인 요하네스 케플러는 물 결정의 대칭 모양에 대한 최초의 엄격한 분석을 시도했다. 그의 논문('Six-Cornered Snowflake'에서, 187187187 Fully titled Strena, Seu De Nive Sexangula (’New Year’s gift, or on the Six-Cornered Snowflake’) was, as suggested by the title, a small booklet sent by Kepler in 1611 as a Christmas gift to his patron and friend Johannes Matthäus Wackher von Wackenfels. 은 눈송이의 6중 이면체 구조를 입자의 육각형 패킹에 기인시켰는데, 이는 물질이 어떻게 형성되는지에 대한 명확한 이해 이전에 존재했지만 여전히 결정학 (Ball, 2011)의 기초로서 오늘날 유지되고 있다.

Symmetry in Mathematics and Physics

현대 수학에서 대칭은 집단 이론의 언어로 거의 단원적으로 표현된다. 이 이론의 기원은 보통 이 용어를 만들어 1830년대에 다항 방정식의 해결 가능성을 연구하는 데 사용한 에바리스테 갈루아에 기인한다. 그룹 이론과 관련된 두 가지 다른 이름은 소푸스 리와 펠릭스 클라인의 이름으로, (Tobies, 2019) 기간 동안 만나서 알차게 함께 일했다. 전자는 오늘날 그의 이름을 가진 연속 대칭 이론을 발전시킬 것이고, 후자는 그룹 이론을 우리가 이 텍스트의 시작 부분에서 언급했던 그의 에를랑겐 프로그램에서 기하학의 조직화 원리로 선언할 것이다. 리만 기하학은 클라인의 통일된 기하학 그림에서 명시적으로 제외되었고, 통합되기까지 50년이 더 걸렸는데, 이는 1920년대 엘리 카르탄의 작품 덕분이다.

괴팅겐에 있는 클라인의 동료 에미 뇌터는 물리계의 작용의 미분 가능한 모든 대칭이 상응하는 보존 법칙 (Noether, 1918)를 가지고 있음을 증명했다. 물리학에서 그것은 놀라운 결과였다: 사전에 에너지의 보존과 같은 근본적인 법칙을 발견하기 위해 세심한 실험적 관찰이 필요했고, 그때도 그것은 어디서도 나오지 않는 경험적 결과였다. 노벨상 수상자 프랭크 윌체크(Frank Wilczek)의 말처럼 “20세기와 21세기의 물리학을 이끄는 별”인 노더의 정리는 에너지의 보존이 시간의 병진 대칭에서 나온다는 것을 보여주었는데, 이는 실험의 결과가 오늘이나 내일 실시되느냐에 달려서는 안 된다는 다소 직관적인 생각이었다.

전하 보존과 관련된 대칭성 188188188Weyl first conjectured (incorrectly) in 1919 that invariance under the change of scale or “gauge” was a local symmetry of electromagnetism. The term gauge, or Eich in German, was chosen by analogy to the various track gauges of railroads. After the development of quantum mechanics, Weyl (1929) modified the gauge choice by replacing the scale factor with a change of wave phase. See Straumann (1996). 은 글로벌 gauge invariance of the electromagnetic field, first appearing in Maxwell's formulation of electrodynamics (Maxwell, 1865); 그러나, 그 중요성은 처음에 눈에 띄지 않았다. 대칭성에 대해 그렇게 디티람적으로 쓴 동일한 헤르만 웨일은 20세기 초 물리학에서 게이지 불변성의 개념을 처음 도입한 사람으로 전자기학이 derived이 될 수 있는 원리로서의 역할을 강조한다. Yang and Mills (1954)에 의해 개발된 일반적인 형태의 이 기본 원리는 전자기학의 양자역학적 거동과 약력과 강력을 설명하는 통일된 프레임워크를 제공하는 데 성공하기까지 수십 년이 걸렸고, 마침내 중력을 제외한 자연의 모든 기본 힘을 포착하는 표준 모델에서 정점을 찍었다. 따라서 우리는 또 다른 노벨상을 받은 물리학자 Philip Anderson (1972)와 함께 “물리학이 대칭의 연구라고 말하는 것은 단지 그 경우를 약간 과장하는 것”이라고 결론지을 수 있다.

Early Use of Symmetry in Machine Learning

기계 학습과 패턴 인식 및 컴퓨터 비전에 대한 응용에서 대칭의 중요성은 오랫동안 인식되어 왔다. 패턴 인식을 위한 등분산 특징 검출기 설계에 대한 초기 작업은 Amari (1978), 189189189Shun’ichi Amari is credited as the creator of the field of information geometry that applies Riemannian geometry models to probability. The main object studied by information geometry is a statistical manifold, where each point corresponds to a probability distribution. Kanatani (2012), Lenz (1990)에 의해 수행되었다. 신경망 문헌에서 Minsky and Papert (2017)에 의한 퍼셉트론에 대한 유명한 그룹 불변 정리는 불변물을 학습하는 (단일 계층) 퍼셉트론의 능력에 근본적인 제한을 둔다. 이는 다층 아키텍처 (Sejnowski et al., 1986; Shawe-Taylor, 1989, 1993)를 연구하는 주된 동기 중 하나였으며, 이는 궁극적으로 딥러닝으로 이어졌다.

신경망 커뮤니티에서 Neocognitron (Fukushima and Miyake, 1982)는 "pattern recognition unaffected by shift in position"에 대한 신경망에서의 shift invariance의 첫 번째 구현으로 인정된다. 그의 해결책은 신경과학자인 데이비드 휴벨과 토스텐 위젤이 20년 전 (Hubel and Wiesel, 1959)에 의해 시각 피질에서 발견한 수용 필드에서 영감을 끌어내는 국소 연결성을 가진 계층적 신경망의 형태로 나왔다. 190190190This classical work was recognised by the Nobel Prize in Medicine in 1981, which Hubel and Wiesel shared with Roger Sperry. 이러한 아이디어는 Yann LeCun과 공저자 (LeCun et al., 1998)의 중요한 작업에서 Convolutional Neural Networks에서 절정에 달했다. 불변 및 등분산 신경망에 대한 표현 이론적 관점을 취한 첫 번째 작업은 불행히도 거의 인용되지 않은 Wood and Shawe-Taylor (1996)에 의해 수행되었다. 이러한 사상의 보다 최근의 화신에는 Makadia et al. (2007); Esteves et al. (2020)의 작품과 본문 (Cohen and Welling, 2016)의 저자 중 한 명이 있다.

Graph Neural Networks

그래프 신경망의 개념이 언제 등장하기 시작했는지 정확히 짚어내기는 어렵다. 부분적으로는 GNN이 2010년대 후반에만 실용화된 이후, 부분적으로는 이 분야가 여러 연구 분야의 합류에서 나왔기 때문에 초기 작업의 대부분이 1급 시민으로 그래프를 배치하지 않았기 때문이다. 즉, 그래프 신경망의 초기 형태는 적어도 1990년대로 거슬러 올라갈 수 있는데, 예를 들어 알레산드로 스페르두티의 라벨링 RAAM (Sperduti, 1994), Goller and Kuchler (1996), 데이터 구조의 적응적 처리 (Sperduti and Starita, 1997; Frasconi et al., 1998) 등이 있다. 이러한 작업은 주로 "구조"(종종 나무 또는 지시된 비순환 그래프)를 통해 작동하는 것과 관련이 있었지만 아키텍처에 보존된 많은 불변은 오늘날 더 일반적으로 사용되는 GNN을 연상시킨다.

일반 그래프 구조의 처리에 대한 첫 번째 적절한 처리(및 용어 “graph neural network”)는 21세기의 전환 후에 발생했다. 191191191Concurrently, Alessio Micheli had proposed the neural network for graphs (NN4G) model, which focused on a feedforward rather than recurrent paradigm (Micheli, 2009).Università degli Studi di Siena(이탈리아)의 인공지능 연구실 내에서 Marco Gori와 Franco Scarselli가 이끄는 논문은 최초의 “GNN” (Gori et al., 2005; Scarselli et al., 2008)를 제안하였다. 그들은 순환 메커니즘에 의존했고, 수축 매핑을 지정하기 위해 신경망 매개변수가 필요했으며, 따라서 고정된 점을 검색하여 노드 표현을 계산했으며, 이는 그 자체로 역전파 (Almeida, 1990; Pineda, 1988)의 특별한 형태를 필요로 했으며 노드 특징에 전혀 의존하지 않았다. 위의 모든 문제는 Li et al. (2015)의 Gated GNN(GGNN) 모델에 의해 수정되었다. GGNN은 GNN 모델에 게이팅 메커니즘 (Cho et al., 2014) 및 시간을 통한 역전파와 같은 현대 RNN의 많은 이점을 가져왔으며 오늘날에도 인기를 유지하고 있다.

Computational chemistry

또한 GNN에 대한 독립적이고 동시적인 개발 라인을 주목하는 것은 매우 중요하다: 분자는 화학 결합(엣지)에 의해 연결된 원자(노드)의 그래프로 가장 자연스럽게 표현되는 계산 화학의 필요에 의해 전적으로 주도된 것이다. 이것은 1990년대에 기계 학습에 존재하게 된 이러한 그래프 구조를 통해 직접 작동하는 분자 특성 예측을 위한 계산 기술을 초대했는데, 여기에는 Kireev (1995)의 ChemNet 모델과 Baskin et al. (1997)의 작업이 포함된다. 놀랍게도, Merkwirth and Lengauer (2005)의 “분자 그래프 네트워크”는 2005년 초에 에지 유형 조건 가중치 또는 전역 풀링과 같은 현대 GNN에서 일반적으로 발견되는 많은 요소를 명시적으로 제안했다. 화학적 동기는 2010년대에 GNN 개발을 계속 추진했으며, 두 가지 중요한 GNN 발전은 분자 핑거프린팅 (Duvenaud et al., 2015)를 개선하고 소분자로부터 양자화학적 특성 (Gilmer et al., 2017)를 예측하는 데 중점을 두었다. 이 텍스트를 작성할 때 분자 특성 예측은 GNN의 가장 성공적인 적용 중 하나이며, 새로운 항생제 (Stokes et al., 2020)의 가상 스크리닝에 영향을 미친다.

Node embeddings

그래프에 대한 딥 러닝의 초기 성공 사례 중 일부는 그래프 구조에 기초하여 지도되지 않은 방식으로 노드의 표현을 학습하는 것을 포함한다. 그들의 구조적 영감을 감안할 때, 이 방향은 또한 그래프 표현 학습과 네트워크 과학 커뮤니티 사이의 가장 직접적인 연결 중 하나를 제공한다. 이 공간의 초기 키 접근 방식은 random walk 기반 임베딩: 노드가 짧은 랜덤 워크에서 동시 발생 하는 경우 노드를 더 가깝게 만드는 방식으로 노드 표현을 학습 합니다. 이 공간에서의 대표적인 방법으로는 DeepWalk (Perozzi et al., 2014), node2vec (Grover and Leskovec, 2016) 및 LINE (Tang et al., 2015) 등이 있으며, 이들은 모두 순전히 자기 지도 방식이다. Planetoid (Yang et al., 2016)는 사용 가능한 경우 감독 레이블 정보를 통합한 첫 번째 공간이었습니다.

Unifying random walk objectives with GNN encoders192192192Recently, a theoretical framework was developed by Srinivasan and Ribeiro (2019) in which the equivalence of structural and positional representations was demonstrated. Additionally, Qiu et al. (2018) have demonstrated that all random-walk based embedding techniques are equivalent to an appropriately-posed matrix factorisation task.은 Variational Graph Autoencoder (VGAE, Kipf and Welling (2016b)), embedding propagation (García-Durán and Niepert, 2017), and unsupervised variants of GraphSAGE (Hamilton et al., 2017)를 포함한 대표적인 접근법으로 여러 차례 시도되었다. 그러나 이것은 혼합된 결과를 얻었고, 이웃 노드 표현을 함께 밀어내는 것이 이미 GNN의 귀납적 편향의 핵심 부분이라는 것이 곧 발견되었다. 실제로, untrained GNN은 노드 기능이 사용 가능한 설정에서 DeepWalk와 경쟁적인 성능을 이미 보여주고 있는 것으로 나타났다. 이것은 무작위 보행 목표를 GNN과 결합하고 contrastive 접근 방식을 상호 정보 최대화에 영감을 받아 이미지 도메인에서 성공적인 방법에 정렬하는 것에서 벗어나는 방향을 시작했다. 이러한 방향의 두드러진 예로는 Deep Graph Informax(DGI, Veličković et al. (2019)), GRACE (Zhu et al., 2020), BERT-like objectives (Hu et al., 2020) 및 BGRL (Thakoor et al., 2021) 등이 있다.

Probabilistic graphical models

그래프 신경망은 또한 동시에 probabilistic graphical models (PGMs, Wainwright and Jordan (2008))의 계산을 임베딩함으로써 다시 나타났다. PGM은 그래픽 데이터를 처리하는 강력한 도구이며, 그래프의 에지에 대한 확률적 관점에서 그 효용성이 발생한다. 즉, 노드는 랜덤 변수로 처리되는 반면, 그래프 구조는 조건부 독립성 가정을 인코딩하여 조인트 분포로부터 계산 및 샘플링을 상당히 단순화할 수 있다. 실제로, PGM들에 대한 학습 및 추론을 (정확하게 또는 대략적으로) 지원하기 위한 많은 알고리즘들은 변분 평균-장 추론 및 루피 신념 전파 (Yedidia et al., 2001; Murphy et al., 2013)를 포함하는 예시들과 함께, 그들의 에지들 위의 전달 메시지들의 형태들 (Pearl, 2014)에 의존한다.

PGM과 메시지 전달 사이의 이러한 연결은 구조 2vec (Dai et al., 2016)의 저자에 의해 초기 이론적 링크가 확립된 GNN 아키텍처로 후속적으로 개발되었다. 즉, 그래프 표현 학습 설정을 (입력 특징 및 잠재 표현에 대응하는 노드의) 마르코프 랜덤 필드로 상정함으로써, 저자들은 평균-필드 추론 및 루피 믿음 전파 모두의 계산을 오늘날 일반적으로 사용되는 GNN과 다르지 않은 모델에 직접 정렬한다.

GNN의 잠재 표현을 PGM에 의해 유지되는 확률 분포와 관련시킬 수 있는 핵심 "트릭"은 Hilbert-space embeddings of distributions (Smola et al., 2007)의 사용이었다. 특징들 𝐱𝐱\mathbf{x}bold_x에 대해 적절하게 선택된 임베딩 함수인 ϕitalic-ϕ\phiitalic_ϕ가 주어지면, 이들의 확률 분포 p(𝐱)𝑝𝐱p(\mathbf{x})italic_p ( bold_x )expected embedding 𝔼𝐱p(𝐱)ϕ(𝐱)subscript𝔼similar-to𝐱𝑝𝐱italic-ϕ𝐱\mathbb{E}_{\mathbf{x}\sim p(\mathbf{x})}\phi(\mathbf{x})blackboard_E start_POSTSUBSCRIPT bold_x ∼ italic_p ( bold_x ) end_POSTSUBSCRIPT italic_ϕ ( bold_x )로 임베딩하는 것이 가능하다. 이러한 대응은 GNN에 의해 계산된 표현들이 항상 노드 특징들에 걸친 some 확률 분포의 임베딩에 대응할 것임을 알고 GNN-유사 계산을 수행할 수 있게 한다.

구조 2vec 모델 자체는 궁극적으로 우리의 프레임워크 내에 쉽게 앉을 수 있는 GNN 아키텍처이지만, 그 설정은 PGM에서 발견되는 계산을 보다 직접적으로 통합하는 일련의 GNN 아키텍처에 영감을 주었다. 새로운 예는 GNN을 조건부 랜덤 필드 (Gao et al., 2019; Spalević et al., 2020), 관계형 마르코프 네트워크 (Qu et al., 2019) 및 마르코프 논리 네트워크 (Zhang et al., 2020)와 성공적으로 결합했다.

The Weisfeiler-Lehman formalism

그래프 신경망의 부활은 특히 표현력 측면에서 근본적인 한계를 이해하려는 추진으로 이어졌다. GNN이 그래프 구조 데이터의 강력한 모델링 도구임이 분명해지고 있지만 그래프에 지정된 any 작업을 완벽하게 해결할 수 없다는 것도 분명했다. 193193193Due to their permutation invariance, GNNs will attach identical representations to two isomorphic graphs, so this case is trivially solved.A canonical illustrative example of this is deciding graph isomorphism: is our GNN able to attach different representation to two given non-isomorphic graph? 이것은 두 가지 이유로 유용한 틀이다. GNN이 이것을 할 수 없다면, 이 두 그래프의 구별을 요구하는 어떤 작업에도 희망이 없을 것이다. 또한, 그래프 동형성을 결정하는 것이 일반적으로 모든 GNN 계산이 상주하는 복잡성 클래스인 P194194194The best currently known algorithm for deciding graph isomorphism is due to Babai and Luks (1983), though a recent (not fully reviewed) proposal by Babai (2016) implies a quasi-polynomial time solution.에 있는지 여부는 현재 알려져 있지 않다.

GNNs를 그래프 동형성에 바인딩하는 주요 프레임워크는 Weisfeiler-Lehman (WL) 그래프 동형 테스트 (Weisfeiler and Leman, 1968)이다. 이 테스트는 그래프의 가장자리를 따라 노드 특징을 반복적으로 전달하여 그래프 표현을 생성한 다음, randomly 해싱 이웃 간의 합을 생성한다. randomly-initialised convolutional GNNs는 명백하며, 일찍이 관찰되었다: 예를 들어, Kipf and Welling (2016a)의 GCN 모델 내에서. 이 연결 외에도 WL 반복은 이전에 graph kernels by Shervashidze et al. (2011)의 도메인에 도입되었으며 전체 그래프 표현의 비지도 학습을 위한 강력한 기준선을 여전히 제시한다.

195195195[Uncaptioned image] One simple example: the WL test cannot distinguish a 6-cycle from two triangles. WL 테스트는 개념적으로 단순하고 구별할 수 없는 비동형 그래프의 간단한 예가 많지만 표현력은 궁극적으로 GNN과 강하게 연결되어 있다. Morris et al. (2019)Xu et al. (2018)에 의한 분석에서는 둘 다 놀라운 결론에 도달했다: any GNN은 섹션 5.3에서 설명한 세 가지 맛 중 하나에 따라 WL 테스트보다 더 강력할 수 없다.

이러한 수준의 표현력에 정확히 도달하기 위해서는 GNN 갱신 규칙에 일정한 제약이 존재해야 한다. Xu et al. (2018)는 이산 특징 도메인에서 GNN이 사용하는 집성 함수는 반드시 injective, with summation is a key representative196196196196Xu et al. (2018)는 이 프레임워크 하에서 최대 표현 GNN의 간단하지만 강력한 예인 GIN(Graph Isomorphism Network)을 제안한다. 또한 제안하는 합성곱 GNN 풍미에서도 표현이 가능하다.

마지막으로 이러한 결과가 continuous 노드 특징 공간에 일반화되지 않는다는 점에 주목할 필요가 있다. 실제로, Borsuk-Ulam 정리를 사용하여 (Borsuk, 1933), Corso et al. (2020)는 실수 노드 특징을 가정할 때, 주입식 집성 함수를 얻기 위해서는 multiple 집성기(구체적으로, degree의 197197197One example of such aggregators are the moments of the multiset of neighbours.이 필요함을 증명하였다. 그들의 발견은 경험적으로 강력하고 안정적인 다중 응집기 GNN을 제안하는 Principal Neighbourhood Aggregation(PNA) 아키텍처를 주도했다.

Higher-order methods

이전 단락의 결과는 GNN의 실용적인 유용성과 모순되지 않는다. 실제로, 많은 실제 응용 프로그램에서 입력 기능은 위의 제한 사항에도 불구하고 그래프 구조에 대한 유용한 판별 계산을 지원하기 위해 충분히 rich이다.

그러나 한 가지 핵심 결과는 GNN이 그래프 내에서 일부 초보적인 structures을 탐지하는 데 상대적으로 매우 약하다는 것이다. WL 테스트의 특정 제한 사항 또는 실패 사례에 따라 여러 작업에서 stronger provably WL 테스트보다 더 강력하며, 따라서 이러한 구조적 검출을 필요로 하는 작업에 유용할 가능성이 있다199199199One prominent example is computational chemistry, wherein a molecule’s chemical function can be strongly influenced by the presence of aromatic rings in its molecular graph.

아마도 더 표현력 있는 GNN을 찾기 위한 가장 직접적인 장소는 WL 테스트 그 자체일 것이다. 실제로, 원래 WL 테스트의 강도는 WL 테스트의 hierarchy을 고려함으로써 향상될 수 있으며, 따라서 k𝑘kitalic_k-WL 테스트는 k𝑘kitalic_k-tuples의 노드 (Morris et al., 2017)에 표현을 첨부한다. k𝑘kitalic_k-WL 테스트는 higher-order,200200200200-δ𝛿\deltaitalic_δ-k𝑘kitalic_k-LGNN (Morris et al., 2020)와 같은 노력이 있어 k𝑘kitalic_k-GNN의 계산을 희소화합니다. 은 이전에 고려했던 GNN 맛보다 확실히 더 강력합니다. 그러나 튜플 표현을 유지하기 위한 요구 사항은 실제로 k=3𝑘3k=3italic_k = 3 이상으로 확장하기가 어렵다는 것을 의미한다.

동시에, Maron et al. (2018, 2019)는 노드의 k𝑘kitalic_k-투플에 대한 불변 및 등분산 그래프 네트워크의 특성화를 연구했다. any 불변 또는 등분산 그래프 네트워크는 유한한 수의 생성기의 선형 조합으로 표현 가능하며, 그 양은 k𝑘kitalic_k에만 의존한다. 저자들은 이러한 계층의 표현력이 k𝑘kitalic_k-WL 테스트와 동등하다는 것을 보여주었고, 증명 가능한 3-WL 강력한 경험적으로 확장 가능한 변형을 제안했다.

표현이 계산되는 도메인을 일반화하는 것 외에도 1-WL의 특정 실패 사례를 분석하고 GNN inputs을 확장하여 이러한 사례를 구별하는 데 도움이 되었다. 하나의 일반적인 예는 identifying features을 노드들에 부착하는 것인데, 이는 구조 검출을 도울 수 있다201201201201예를 들어, 노드가 자신의 식별자 k𝑘kitalic_k hops away를 보는 경우, 이는 자신이 k𝑘kitalic_k-cycle 내에 있다는 직접적인 지시자이다. 이를 위한 제안에는 one-hot representations (Murphy et al., 2019) 뿐만 아니라 순수 random features (Sato et al., 2020)가 포함된다.

보다 광범위하게, structural information within the message passing process, by modulating the message function or the graph of the computation is carried over202202202In the computational chemistry domain, it is often assumed that molecular function is driven by substructures (the functional groups), which have directly inspired the modelling of molecules at a motif level. For references, consider Jin et al. (2018, 2020); Fey et al. (2020).. 여기서 몇 가지 흥미로운 작업 라인은 샘플링 anchor 노드 세트 (You et al., 2019), Laplacian eigenvectors (Stachenfeld et al., 2020; Beaini et al., 2020; Dwivedi and Bresson, 2020), 또는 topological data analysis, for positional embeddings (Bouritsas et al., 2020) 또는 driving message passing (Bodnar et al., 2021)를 기반으로 집계하는 작업을 포함한다.

Signal processing and Harmonic analysis

합성곱 신경망의 초기 성공 이후 연구자들은 그들의 효율성을 설명하는 이론적 틀을 제공하기 위해 조화 분석, 이미지 처리 및 계산 신경 과학의 도구에 의존했다. M𝑀Mitalic_M-theory는 특정 대칭 그룹 하에서 조작될 수 있는 템플릿의 개념에 기초하여, Tomaso Poggio와 협력자 (Riesenhuber and Poggio, 1999; Serre et al., 2007)에 의해 개척된 시각 피질에서 영감을 받은 프레임워크이다. 계산 신경과학에서 발생하는 또 다른 주목할만한 모델은 steerable pyramids, Simoncelli and Freeman (1995)에 의해 개발된 특정 입력 변환에 대해 유리한 특성을 가진 다중 스케일 웨이블릿 분해의 형태였다. 그들은 텍스처 (Portilla and Simoncelli, 2000)에 대한 초기 생성 모델에서 중심 요소였으며, 이는 조향 가능한 웨이블릿 특징을 심층 CNN 특징 Gatys et al. (2015)로 대체함으로써 후속적으로 개선되었다. 마지막으로, Stéphane Mallat (2012)에 의해 소개되고 Bruna and Mallat (2013)에 의해 개발된 산란 변환은 훈련 가능한 필터를 멀티스케일 웨이브렛 분해로 대체하여 CNN을 이해할 수 있는 프레임워크를 제공했으며, 변형 안정성과 아키텍처에서 깊이의 역할도 보여주었다.

Signal Processing on Graph and Meshes

그래프 신경망의 또 다른 중요한 클래스, 종종 spectralGraph Fourier transform의 개념을 사용하여 이 텍스트의 저자 중 한 명의 작업에서 등장했다. 이 구성의 뿌리는 신호 처리 및 컴퓨터 하모닉 분석 커뮤니티에 있으며, 여기서 비 유클리드 신호를 다루는 것은 2000년대 후반과 2010년대 초에 두드러졌다. Pierre Vandergheynst (Shuman et al., 2013)와 José Moura (Sandryhaila and Moura, 2013) 그룹의 영향력 있는 논문들은 "Graph Signal Processing"(GSP)의 개념과 그래프 인접성과 라플라시안 행렬의 고유벡터를 기반으로 한 푸리에 변환의 일반화를 대중화했다. Defferrard et al. (2016)Kipf and Welling (2016a)에 의한 스펙트럼 필터에 의존하는 그래프 합성곱 신경망은 해당 분야에서 가장 많이 인용되는 분야 중 하나이며 신용될 가능성이 높다. 최근 몇 년 동안 그래프에 대한 기계 학습에 대한 관심을 다시 불러일으키고 있다.

컴퓨터 그래픽 및 기하학 처리 분야에서 비유클리드 조화 분석은 그래프 신호 처리보다 최소 10년 앞서 있다는 점에 주목할 필요가 있다. 우리는 Taubin et al. (1996)의 작업으로 매니폴드와 메쉬에 대한 스펙트럼 필터를 추적할 수 있다. 이러한 방법은 스펙트럼 기하학 압축에 대한 Karni and Gotsman (2000)의 영향력 있는 논문과 라플라시안 고유벡터를 비유클리드 푸리에 기반으로 사용하는 Lévy (2006)의 영향력 있는 논문에 이어 2000년대에 주류를 이루었다. 스펙트럼 방법은 다양한 응용 분야에 사용되어 왔으며, 그 중 가장 두드러진 것은 형상 기술자 (Sun et al., 2009) 및 기능 맵 (Ovsjanikov et al., 2012)의 구성이다; 이러한 방법은 여전히 쓰기 시에 컴퓨터 그래픽에서 광범위하게 사용된다.

Computer Graphics and Geometry Processing

고유 메트릭 불변량에 기초한 형상 분석을 위한 모델은 컴퓨터 그래픽 및 기하학 처리 분야 (Elad and Kimmel, 2003; Mémoli and Sapiro, 2005; Bronstein et al., 2006)의 다양한 저자에 의해 소개되었으며, 그의 이전 책 (Bronstein et al., 2008)에서 저자 중 한 명이 심도 있게 논의했다. 고유 대칭의 개념은 동일한 필드 Raviv et al. (2007); Ovsjanikov et al. (2008)에서도 탐구되었다. 메시에서 딥 러닝을 위한 첫 번째 아키텍처인 지오데식 CNN은 텍스트 (Masci et al., 2015)의 저자 중 한 명으로 구성된 팀에서 개발되었다. 이 모델은 지오데식 방사형 패치에 적용된 공유 가중치를 가진 로컬 필터를 사용했다. 그것은 (Cohen et al., 2019) 텍스트의 다른 저자에 의해 나중에 개발된 게이지-equivariant CNN의 특정 설정이었다. 동일한 팀에서 페데리코 Monti et al. (2017)가 제안한 학습 가능한 집계 연산인 MoNet을 사용한 지오데식 CNN의 일반화는 메쉬의 로컬 구조적 특징에 대한 주의와 같은 메커니즘을 사용했으며, 이는 일반 그래프에서도 작동하는 것으로 입증되었다. 기술적으로 MoNet의 특정 인스턴스로 간주될 수 있는 그래프 주의 네트워크(GAT)는 이 텍스트 (Veličković et al., 2018)의 다른 저자에 의해 도입되었다. GAT는 이전 작업의 순전히 구조에서 파생된 관련성을 탈피하여 노드 특징 정보를 통합하기 위해 MoNet의 주의 메커니즘을 일반화한다. 현재 사용 중인 가장 인기 있는 GNN 아키텍처 중 하나입니다.

컴퓨터 그래픽의 맥락에서, 세트 (Zaheer et al., 2017)에 대한 학습 아이디어가 3D 포인트 클라우드의 분석을 위해 PointNet (Qi et al., 2017)라는 이름으로 스탠포드의 Leo Guibas 그룹에서 동시에 개발되었다는 점도 언급할 가치가 있다. 이 아키텍처는 동적 그래프 CNN(DGCNN, Wang et al. (2019b))이라는 이 텍스트의 저자에 의한 작업을 포함하여 여러 후속 작업으로 이어졌다. DGCNN은 노드들 간의 정보 교환을 허용하기 위해 포인트 클라우드의 로컬 구조를 캡처하기 위해 최근접-이웃 그래프를 사용했는데, 이 아키텍처의 주요 특징은 그래프가 다운스트림 태스크와 관련하여 신경망의 계층들 사이에서 즉시 구성되고 업데이트된다는 것이다. 이 후자의 속성은 DGCNN을 ‘잠재 그래프 학습’의 첫 번째 화신 중 하나로 만들었고, 그 결과 상당한 후속 조치가 있었다. DGCNN의 k𝑘kitalic_k-최근접 그래프 제안으로의 확장에는 이러한 그래프에 대한 더 명확한 제어가 포함된다. edges, through bilevel optimisation (Franceschi et al., 2019), reinforcement learning (Kazi et al., 2020) or direct supervision (Veličković et al., 2020). 독립적으로, 변분 방향(계산된 posterior 분포에서 에지를 확률적으로 샘플링함)이 NRI 모델 (Kipf et al., 2018)를 통해 나타났다. 여전히 노드 수의 2차 계산에 의존하지만, 선택된 에지에 대한 불확실성을 명시적으로 인코딩할 수 있다.

제공된 그래프가 없는 그래프에 대한 학습에서 매우 인기 있는 또 다른 방향은 complete 그래프를 통해 GNN 스타일 계산을 수행하는 데 의존하여 네트워크가 연결성을 활용하는 고유한 방법을 추론합니다. 이에 대한 필요성은 특히 문장의 다양한 단어들이 매우 사소하고 비순차적인 방식으로 상호작용하는 자연어 처리에서 발생한다. 단어의 완전한 그래프를 통해 작동하면 트랜스포머 모델 (Vaswani et al., 2017)의 첫 번째 화신이 발생했으며, 이는 신경망 기계 번역에서 최신 기술로 리커런트 모델과 컨벌루션 모델을 모두 삭제하고 NLP와 다른 필드 사이의 경계를 초월하여 관련 작업의 눈사태를 시작했다. 완전 연결 GNN 계산은 시뮬레이션 (Battaglia et al., 2016), 추론 (Santoro et al., 2017), 다중 에이전트 (Hoshen, 2017) 애플리케이션에서도 동시에 등장했으며 노드의 수가 합리적으로 적을 때 여전히 인기 있는 선택을 나타낸다.

Algorithmic reasoning

이 섹션에서 제기한 대부분의 논의에 대해 spatially 유도 기하학의 예를 제공했으며, 이는 차례로 기본 도메인과 그 불변 및 대칭을 형성한다. 그러나 computational 설정에서도 불변 및 대칭의 다양한 예가 발생합니다. 기하학적 딥 러닝의 많은 공통 설정에 대한 한 가지 중요한 차이점은 링크가 더 이상 유사성, 근접성 또는 관계의 유형에 대해 인코딩할 필요가 없다는 것이다.

대신, 신경망의 계산은 알고리즘의 제어 흐름에 의해 유도된 추가 인바리언스들과 함께 algorithm (Cormen et al., 2009), 204204204204예를 들어, Bellman-Ford pathfinding algorithm (Bellman, 1958)의 하나의 인바리언트는 k𝑘kitalic_k 단계 이후, 항상 k𝑘kitalic_k 에지보다 더 많이 사용하지 않는 소스 노드 알고리즘의 공간에서 가정된 입력 불변량은 종종 preconditions로 지칭되는 반면, 알고리즘에 의해 보존된 불변량은 postconditions로 알려져 있다.

즉, algorithmic reasoning (Cappart et al., 2021, Section 3.3.)는 알고리즘 불변량을 적절히 보존하는 신경망 아키텍처를 생산하고자 한다. 이 영역은 범용 신경 컴퓨터, 예를 들어 neural Turing machine (Graves et al., 2014)differentiable neural computer (Graves et al., 2016)의 구성을 조사했다. 이러한 아키텍처는 일반적인 계산의 모든 특징을 가지고 있지만 여러 구성 요소를 한 번에 도입하여 최적화하기 어려운 경우가 많으며 실제로는 Santoro et al. (2017, 2018)에서 제안한 것과 같은 단순한 관계 추론기에 의해 거의 항상 성능이 우수하다.

복잡한 후처리 조건을 모델링하는 것이 어렵기 때문에, (Zaremba and Sutskever, 2014)를 실행하기 위한 학습을 위한 귀납적 편향에 대한 많은 연구는 원시 알고리즘(예: 간단한 산술)에 초점을 맞추었다. 이 공간의 두드러진 예로는 neural GPU (Kaiser and Sutskever, 2015), neural RAM (Kurach et al., 2015), neural programmer-interpreters (Reed and De Freitas, 2015), neural arithmetic-logic units

superlinear complexity의 조합 알고리즘을 구현하는 것은 GNN 아키텍처의 급속한 발전과 함께 가능했다. algorithmic alignment framework pioneered by Xu et al. (2019)는 이론적으로 GNNs align with dynamic programming (Bellman, 1966)는 대부분의 알고리즘이 표현될 수 있는 언어임을 증명하였다. 이 텍스트의 저자 중 한 명이 실제 (Veličković et al., 2019)에서 알고리즘 불변과 일치하는 GNN을 설계하고 훈련하는 것이 가능하다는 것을 동시에 경험적으로 보여주었다. 이후 정렬은 iterative algorithms (Tang et al., 2020), linearithmic algorithms (Freivalds et al., 2019), data structures (Veličković et al., 2020)persistent memory (Strathmann et al., 2021) 이러한 모델들은 또한 implicit planners (Deac et al., 2020) reinforcement learning 알고리즘들의 공간으로 침입하는 실용화를 보았다.

동시에, physics simulations (Sanchez-Gonzalez et al., 2020; Pfaff et al., 2020)에 대해 GNNs를 사용하는 데 상당한 진전이 있었다. 이 방향은 일반화 GNN의 설계에 대해 동일한 권장 사항을 많이 산출했다. 이러한 대응은 예상되며, 알고리즘이 이산 시간 시뮬레이션으로 표현될 수 있고 시뮬레이션이 일반적으로 단계적 알고리즘으로 구현된다는 점을 감안할 때 두 방향 모두 유사한 종류의 불변량을 보존해야 한다.

알고리즘 추론의 연구와 밀접하게 결합된 것은 extrapolation이다. 이것은 대부분의 성공 사례가 in-distribution; 즉 훈련 데이터에서 발견된 패턴이 테스트 데이터에서 발견된 패턴을 적절하게 예측할 때 얻어진다는 점을 감안할 때 신경망에 악명 높은 고통 지점이다. 그러나 알고리즘 불변은 예를 들어 입력의 크기 또는 생성 분포에 관계없이 보존되어야 하며, 이는 훈련 세트가 실제로 마주치는 가능한 시나리오를 포함하지 않을 가능성이 있음을 의미한다. Xu et al. (2020b)는 정류기 활성화에 의해 지원되는 외삽 GNN의 요구 사항에 대한 기하학적 인수를 제안했다: 구성 요소 및 특성은 구성 모듈(예: 메시지 함수)이 linear 목표 함수만 학습하도록 설계되어야 한다. Bevilacqua et al. (2021)causal reasoning, yielding environment-invariant representations of graph.

Geometric Deep Learning

우리의 마지막 역사적 발언은 바로 이 텍스트의 이름과 관련이 있다. 기하학적 딥 러닝(Geometric Deep Learning)이라는 용어는 2015년 그의 ERC grant에서 이 텍스트의 저자 중 한 사람에 의해 처음 도입되었으며 명칭 IEEE 신호 처리 매거진 논문 (Bronstein et al., 2017)에서 대중화되었다. 이 논문은 비록 “약간의 주의를 기울이지만” “새로운 분야가 탄생하는” 징후를 선언했다. 그래프 신경망의 최근 인기, 광범위한 기계 학습 응용 분야에서 불변성과 불분산의 아이디어의 사용 증가, 그리고 우리가 이 글을 쓴 바로 그 사실을 고려할 때, 아마도 이 예언이 적어도 부분적으로 충족되었다고 생각하는 것이 옳을 것이다. “4G: 그리드, 그래프, 그룹 및 게이지”라는 이름은 맥스 웰링이 기하학 딥 러닝에 대한 ELLIS 프로그램을 위해 만든 것으로, 텍스트의 두 명의 저자가 공동 지시했다. 분명히, 마지막 'G'는 다소 스트레치인데, 그 이유는 기본 구조가 게이지가 아니라 다양체와 다발이기 때문이다. 이 텍스트에서 우리는 미터법 불변량과 다양체의 고유 대칭과 관련하여 또 다른 ‘G’인 측지학을 추가했다.

Acknowledgements

이 텍스트는 불변과 대칭이라는 기하학적 렌즈를 통해 딥 러닝 아키텍처에서 수십 년의 기존 지식을 요약하고 종합하려는 겸손한 시도를 나타낸다. 우리의 관점이 새로운 사람들과 실무자들이 현장을 탐색하고 연구자들이 우리의 청사진의 예로서 새로운 아키텍처를 합성하는 것을 더 쉽게 만들기를 바랍니다. 어떤 면에서, 우리는 “all you need to build the architecture are all you need of the architecture which are all you need of the architecture that are all you need to build the architecture that are all you need of the architecture that are all you need to build the architecture that is all you need to build the architecture that a inspired by word on Vaswani et al. (2017)”를 제시했기를 희망한다.

본문의 대부분은 2020년 말과 2021년 초에 작성되었다. 종종 일어나는 일처럼, 우리는 그림 전체가 말이 되는지에 대해 수천 개의 의구심을 품었고, 동료들이 제공한 기회를 사용하여 케임브리지에서의 페타르의 강연(피에트로 리에의 예의)과 옥스포드에서의 마이클의 강연(샤오웬 동의 예의)과 임페리얼 칼리지에서의 마이클의 강연(마이클 휴스와 다니엘 루커트의 주최)에서 우리의 "무대 공포증"을 깨고 우리 작품의 초기 버전을 발표하는 데 사용했다. 페타는 또한 에를랑겐 프로그램의 발상지인 프리드리히-알렉산더-유니버시토트 에를랑겐-뉘른베르크에서 우리의 작업을 발표할 수 있었다. 안드레아스 메이어의 친절한 초청으로. 우리가 이 회담에 대해 받은 피드백은 우리의 기분을 좋게 하고 작업을 더 다듬는 데 매우 귀중한 것이었다. 마지막으로, 그러나 확실히 중요한 것은, 우리의 작업이 마이클이 전달하는 기조 강연에 소개될 ICLR 2021의 조직 위원회에 감사드립니다.

우리는 그러한 방대한 양의 연구를 조정하는 것이 4명의 전문지식에 의해 거의 가능하지 않다는 점에 유의해야 한다. 이에 따라, 우리는 우리의 텍스트가 진화할 때 우리의 텍스트의 측면을 신중하게 연구한 모든 연구자들에게 공을 돌리고, 우리에게 신중한 논평과 참조를 제공했습니다: 요슈아 벵히오, 찰스 블런델, 안드리아 데악, 파비안 푸치스, 프란체스코 디 지오반니, 마르코 고리, 라야 하델, 윌 해밀턴, 막심 코릴로프, 크리스티안 머크워트, 라즈반 파스카누, 브루노 리베이루, 안나 스카이페, 위르겐 슈미후베르, 마르윈 세글러, 코렌틴 타레크, 응겐 벤스, 피터 윈스버거 및 데이비드 웡. 그들의 전문가적 피드백은 우리의 통일 노력을 확고히 하고 다양한 틈새 시장에 더 유용하게 만드는 데 매우 유용했다. 물론, 이 글의 어떤 부정행위도 우리만의 책임입니다. 현재 진행 중인 작업이며, 어떤 단계에서든 의견을 받을 수 있어 매우 기쁩니다. 오류나 누락이 발견되면 저희에게 연락하십시오.

References

  • Aflalo and Kimmel (2013) Yonathan Aflalo and Ron Kimmel. Spectral multidimensional scaling. PNAS, 110(45):18052–18057, 2013.
  • Aflalo et al. (2015) Yonathan Aflalo, Haim Brezis, and Ron Kimmel. On the optimality of shape and data representation in the spectral domain. SIAM J. Imaging Sciences, 8(2):1141–1160, 2015.
  • Almeida (1990) Luis B Almeida. A learning rule for asynchronous perceptrons with feedback in a combinatorial environment. In Artificial neural networks: concept learning, pages 102–111. 1990.
  • Alon and Yahav (2020) Uri Alon and Eran Yahav. On the bottleneck of graph neural networks and its practical implications. arXiv:2006.05205, 2020.
  • Amari (1978) Sl Amari. Feature spaces which admit and detect invariant signal transformations. In Joint Conference on Pattern Recognition, 1978.
  • Anderson et al. (2019) Brandon Anderson, Truong-Son Hy, and Risi Kondor. Cormorant: Covariant molecular neural networks. arXiv:1906.04015, 2019.
  • Anderson (1972) Philip W Anderson. More is different. Science, 177(4047):393–396, 1972.
  • Andreux et al. (2014) Mathieu Andreux, Emanuele Rodola, Mathieu Aubry, and Daniel Cremers. Anisotropic Laplace-Beltrami operators for shape analysis. In ECCV, 2014.
  • Arslan et al. (2018) Salim Arslan, Sofia Ira Ktena, Ben Glocker, and Daniel Rueckert. Graph saliency maps through spectral convolutional networks: Application to sex classification with brain connectivity. In Graphs in Biomedical Image Analysis and Integrating Medical Imaging and Non-Imaging Modalities, pages 3–13. 2018.
  • Ba et al. (2016) Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. arXiv:1607.06450, 2016.
  • Babai (2016) László Babai. Graph isomorphism in quasipolynomial time. In ACM Symposium on Theory of Computing, 2016.
  • Babai and Luks (1983) László Babai and Eugene M Luks. Canonical labeling of graphs. In ACM Symposium on Theory of computing, 1983.
  • Bach (2017) Francis Bach. Breaking the curse of dimensionality with convex neural networks. JMLR, 18(1):629–681, 2017.
  • Badia et al. (2020) Adrià Puigdomènech Badia, Bilal Piot, Steven Kapturowski, Pablo Sprechmann, Alex Vitvitskyi, Zhaohan Daniel Guo, and Charles Blundell. Agent57: Outperforming the atari human benchmark. In ICML, 2020.
  • Badrinarayanan et al. (2017) Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. Trans. PAMI, 39(12):2481–2495, 2017.
  • Bahdanau et al. (2014) Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. arXiv:1409.0473, 2014.
  • Ball (2011) Philip Ball. In retrospect: On the six-cornered snowflake. Nature, 480(7378):455–455, 2011.
  • Bamieh (2018) Bassam Bamieh. Discovering transforms: A tutorial on circulant matrices, circular convolution, and the discrete fourier transform. arXiv:1805.05533, 2018.
  • Banach (1922) Stefan Banach. Sur les opérations dans les ensembles abstraits et leur application aux équations intégrales. Fundamenta Mathematicae, 3(1):133–181, 1922.
  • Bapst et al. (2020) Victor Bapst, Thomas Keck, A Grabska-Barwińska, Craig Donner, Ekin Dogus Cubuk, Samuel S Schoenholz, Annette Obika, Alexander WR Nelson, Trevor Back, Demis Hassabis, et al. Unveiling the predictive power of static structure in glassy systems. Nature Physics, 16(4):448–454, 2020.
  • Barabási et al. (2011) Albert-László Barabási, Natali Gulbahce, and Joseph Loscalzo. Network medicine: a network-based approach to human disease. Nature Reviews Genetics, 12(1):56–68, 2011.
  • Barron (1993) Andrew R Barron. Universal approximation bounds for superpositions of a sigmoidal function. IEEE Trans. Information Theory, 39(3):930–945, 1993.
  • Baskin et al. (1997) Igor I Baskin, Vladimir A Palyulin, and Nikolai S Zefirov. A neural device for searching direct correlations between structures and properties of chemical compounds. J. Chemical Information and Computer Sciences, 37(4):715–721, 1997.
  • Battaglia et al. (2016) Peter W Battaglia, Razvan Pascanu, Matthew Lai, Danilo Rezende, and Koray Kavukcuoglu. Interaction networks for learning about objects, relations and physics. arXiv:1612.00222, 2016.
  • Battaglia et al. (2018) Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relational inductive biases, deep learning, and graph networks. arXiv:1806.01261, 2018.
  • Beaini et al. (2020) Dominique Beaini, Saro Passaro, Vincent Létourneau, William L Hamilton, Gabriele Corso, and Pietro Liò. Directional graph networks. arXiv:2010.02863, 2020.
  • Bellman (1958) Richard Bellman. On a routing problem. Quarterly of Applied Mathematics, 16(1):87–90, 1958.
  • Bellman (1966) Richard Bellman. Dynamic programming. Science, 153(3731):34–37, 1966.
  • Bengio et al. (1994) Yoshua Bengio, Patrice Simard, and Paolo Frasconi. Learning long-term dependencies with gradient descent is difficult. IEEE Trans. Neural Networks, 5(2):157–166, 1994.
  • Berger (2012) Marcel Berger. A panoramic view of Riemannian geometry. Springer, 2012.
  • Besson et al. (2020) Pierre Besson, Todd Parrish, Aggelos K Katsaggelos, and S Kathleen Bandt. Geometric deep learning on brain shape predicts sex and age. BioRxiv:177543, 2020.
  • Bevilacqua et al. (2021) Beatrice Bevilacqua, Yangze Zhou, and Bruno Ribeiro. Size-invariant graph representations for graph classification extrapolations. arXiv:2103.05045, 2021.
  • Blanc et al. (2020) Guy Blanc, Neha Gupta, Gregory Valiant, and Paul Valiant. Implicit regularization for deep neural networks driven by an ornstein-uhlenbeck like process. In COLT, 2020.
  • Bodnar et al. (2021) Cristian Bodnar, Fabrizio Frasca, Yu Guang Wang, Nina Otter, Guido Montúfar, Pietro Liò, and Michael Bronstein. Weisfeiler and lehman go topological: Message passing simplicial networks. arXiv:2103.03212, 2021.
  • Bogatskiy et al. (2020) Alexander Bogatskiy, Brandon Anderson, Jan Offermann, Marwah Roussi, David Miller, and Risi Kondor. Lorentz group equivariant neural network for particle physics. In ICML, 2020.
  • Borsuk (1933) Karol Borsuk. Drei sätze über die n-dimensionale euklidische sphäre. Fundamenta Mathematicae, 20(1):177–190, 1933.
  • Boscaini et al. (2015) Davide Boscaini, Davide Eynard, Drosos Kourounis, and Michael M Bronstein. Shape-from-operator: Recovering shapes from intrinsic operators. Computer Graphics Forum, 34(2):265–274, 2015.
  • Boscaini et al. (2016a) Davide Boscaini, Jonathan Masci, Emanuele Rodoià, and Michael Bronstein. Learning shape correspondence with anisotropic convolutional neural networks. In NIPS, 2016a.
  • Boscaini et al. (2016b) Davide Boscaini, Jonathan Masci, Emanuele Rodolà, Michael M Bronstein, and Daniel Cremers. Anisotropic diffusion descriptors. Computer Graphics Forum, 35(2):431–441, 2016b.
  • Bougleux et al. (2015) Sébastien Bougleux, Luc Brun, Vincenzo Carletti, Pasquale Foggia, Benoit Gaüzere, and Mario Vento. A quadratic assignment formulation of the graph edit distance. arXiv:1512.07494, 2015.
  • Bouritsas et al. (2020) Giorgos Bouritsas, Fabrizio Frasca, Stefanos Zafeiriou, and Michael M Bronstein. Improving graph neural network expressivity via subgraph isomorphism counting. arXiv:2006.09252, 2020.
  • Bronstein et al. (2006) Alexander M Bronstein, Michael M Bronstein, and Ron Kimmel. Generalized multidimensional scaling: a framework for isometry-invariant partial surface matching. PNAS, 103(5):1168–1172, 2006.
  • Bronstein et al. (2008) Alexander M Bronstein, Michael M Bronstein, and Ron Kimmel. Numerical geometry of non-rigid shapes. Springer, 2008.
  • Bronstein et al. (2017) Michael M Bronstein, Joan Bruna, Yann LeCun, Arthur Szlam, and Pierre Vandergheynst. Geometric deep learning: going beyond Euclidean data. IEEE Signal Processing Magazine, 34(4):18–42, 2017.
  • Brown et al. (2020) Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. arXiv:2005.14165, 2020.
  • Bruna and Mallat (2013) Joan Bruna and Stéphane Mallat. Invariant scattering convolution networks. IEEE transactions on pattern analysis and machine intelligence, 35(8):1872–1886, 2013.
  • Bruna et al. (2013) Joan Bruna, Wojciech Zaremba, Arthur Szlam, and Yann LeCun. Spectral networks and locally connected networks on graphs. In ICLR, 2013.
  • Cappart et al. (2021) Quentin Cappart, Didier Chételat, Elias Khalil, Andrea Lodi, Christopher Morris, and Petar Veličković. Combinatorial optimization and reasoning with graph neural networks. arXiv:2102.09544, 2021.
  • Chen et al. (2018) Ricky TQ Chen, Yulia Rubanova, Jesse Bettencourt, and David Duvenaud. Neural ordinary differential equations. arXiv:1806.07366, 2018.
  • Chen et al. (2020) Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. In ICML, 2020.
  • Chern et al. (2018) Albert Chern, Felix Knöppel, Ulrich Pinkall, and Peter Schröder. Shape from metric. ACM Trans. Graphics, 37(4):1–17, 2018.
  • Cho et al. (2014) Kyunghyun Cho, Bart Van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation. arXiv:1406.1078, 2014.
  • Choma et al. (2018) Nicholas Choma, Federico Monti, Lisa Gerhardt, Tomasz Palczewski, Zahra Ronaghi, Prabhat Prabhat, Wahid Bhimji, Michael M Bronstein, Spencer R Klein, and Joan Bruna. Graph neural networks for icecube signal classification. In ICMLA, 2018.
  • Cohen and Welling (2016) Taco Cohen and Max Welling. Group equivariant convolutional networks. In ICML, 2016.
  • Cohen et al. (2019) Taco Cohen, Maurice Weiler, Berkay Kicanaoglu, and Max Welling. Gauge equivariant convolutional networks and the icosahedral CNN. In ICML, 2019.
  • Cohen et al. (2018) Taco S Cohen, Mario Geiger, Jonas Köhler, and Max Welling. Spherical cnns. arXiv:1801.10130, 2018.
  • Cooijmans et al. (2016) Tim Cooijmans, Nicolas Ballas, César Laurent, Çağlar Gülçehre, and Aaron Courville. Recurrent batch normalization. arXiv:1603.09025, 2016.
  • Corman et al. (2017) Etienne Corman, Justin Solomon, Mirela Ben-Chen, Leonidas Guibas, and Maks Ovsjanikov. Functional characterization of intrinsic and extrinsic geometry. ACM Trans. Graphics, 36(2):1–17, 2017.
  • Cormen et al. (2009) Thomas H Cormen, Charles E Leiserson, Ronald L Rivest, and Clifford Stein. Introduction to algorithms. MIT press, 2009.
  • Corso et al. (2020) Gabriele Corso, Luca Cavalleri, Dominique Beaini, Pietro Liò, and Petar Veličković. Principal neighbourhood aggregation for graph nets. arXiv:2004.05718, 2020.
  • Cosmo et al. (2020) Luca Cosmo, Anees Kazi, Seyed-Ahmad Ahmadi, Nassir Navab, and Michael Bronstein. Latent-graph learning for disease prediction. In MICCAI, 2020.
  • Cranmer et al. (2020) Miles Cranmer, Sam Greydanus, Stephan Hoyer, Peter Battaglia, David Spergel, and Shirley Ho. Lagrangian neural networks. arXiv:2003.04630, 2020.
  • Cranmer et al. (2019) Miles D Cranmer, Rui Xu, Peter Battaglia, and Shirley Ho. Learning symbolic physics with graph networks. arXiv:1909.05862, 2019.
  • Cucurull et al. (2018) Guillem Cucurull, Konrad Wagstyl, Arantxa Casanova, Petar Veličković, Estrid Jakobsen, Michal Drozdzal, Adriana Romero, Alan Evans, and Yoshua Bengio. Convolutional neural networks for mesh-based parcellation of the cerebral cortex. 2018.
  • Cybenko (1989) George Cybenko. Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals and Systems, 2(4):303–314, 1989.
  • Dai et al. (2016) Hanjun Dai, Bo Dai, and Le Song. Discriminative embeddings of latent variable models for structured data. In ICML, 2016.
  • De Fauw et al. (2018) Jeffrey De Fauw, Joseph R Ledsam, Bernardino Romera-Paredes, Stanislav Nikolov, Nenad Tomasev, Sam Blackwell, Harry Askham, Xavier Glorot, Brendan O’Donoghue, Daniel Visentin, et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. Nature Medicine, 24(9):1342–1350, 2018.
  • de Haan et al. (2020) Pim de Haan, Maurice Weiler, Taco Cohen, and Max Welling. Gauge equivariant mesh CNNs: Anisotropic convolutions on geometric graphs. In NeurIPS, 2020.
  • Deac et al. (2019) Andreea Deac, Petar Veličković, and Pietro Sormanni. Attentive cross-modal paratope prediction. Journal of Computational Biology, 26(6):536–545, 2019.
  • Deac et al. (2020) Andreea Deac, Petar Veličković, Ognjen Milinković, Pierre-Luc Bacon, Jian Tang, and Mladen Nikolić. Xlvin: executed latent value iteration nets. arXiv:2010.13146, 2020.
  • Defferrard et al. (2016) Michaël Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. NIPS, 2016.
  • Derrow-Pinion et al. (2021) Austin Derrow-Pinion, Jennifer She, David Wong, Oliver Lange, Todd Hester, Luis Perez, Marc Nunkesser, Seongjae Lee, Xueying Guo, Peter W Battaglia, Vishal Gupta, Ang Li, Zhongwen Xu, Alvaro Sanchez-Gonzalez, Yujia Li, and Petar Veličković. Traffic Prediction with Graph Neural Networks in Google Maps. 2021.
  • Devlin et al. (2018) Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv:1810.04805, 2018.
  • Duvenaud et al. (2015) David K Duvenaud, Dougal Maclaurin, Jorge Iparraguirre, Rafael Bombarell, Timothy Hirzel, Alán Aspuru-Guzik, and Ryan P Adams. Convolutional networks on graphs for learning molecular fingerprints. NIPS, 2015.
  • Dwivedi and Bresson (2020) Vijay Prakash Dwivedi and Xavier Bresson. A generalization of transformer networks to graphs. arXiv:2012.09699, 2020.
  • Elad and Kimmel (2003) Asi Elad and Ron Kimmel. On bending invariant signatures for surfaces. Trans. PAMI, 25(10):1285–1295, 2003.
  • Elman (1990) Jeffrey L Elman. Finding structure in time. Cognitive Science, 14(2):179–211, 1990.
  • Esteves et al. (2020) Carlos Esteves, Ameesh Makadia, and Kostas Daniilidis. Spin-weighted spherical CNNs. arXiv:2006.10731, 2020.
  • Fang et al. (2020) Xiaomin Fang, Jizhou Huang, Fan Wang, Lingke Zeng, Haijin Liang, and Haifeng Wang. ConSTGAT: Contextual spatial-temporal graph attention network for travel time estimation at baidu maps. In KDD, 2020.
  • Fey et al. (2020) Matthias Fey, Jan-Gin Yuen, and Frank Weichert. Hierarchical inter-message passing for learning on molecular graphs. arXiv:2006.12179, 2020.
  • Finzi et al. (2020) Marc Finzi, Samuel Stanton, Pavel Izmailov, and Andrew Gordon Wilson. Generalizing convolutional neural networks for equivariance to lie groups on arbitrary continuous data. In ICML, 2020.
  • Folkman (1967) Jon Folkman. Regular line-symmetric graphs. Journal of Combinatorial Theory, 3(3):215–232, 1967.
  • Franceschi et al. (2019) Luca Franceschi, Mathias Niepert, Massimiliano Pontil, and Xiao He. Learning discrete structures for graph neural networks. In ICML, 2019.
  • Frasconi et al. (1998) Paolo Frasconi, Marco Gori, and Alessandro Sperduti. A general framework for adaptive processing of data structures. IEEE Trans. Neural Networks, 9(5):768–786, 1998.
  • Freivalds et al. (2019) Kārlis Freivalds, Emīls Ozoliņš, and Agris Šostaks. Neural shuffle-exchange networks–sequence processing in o (n log n) time. arXiv:1907.07897, 2019.
  • Fuchs et al. (2020) Fabian B Fuchs, Daniel E Worrall, Volker Fischer, and Max Welling. SE(3)-transformers: 3D roto-translation equivariant attention networks. arXiv:2006.10503, 2020.
  • Fukushima and Miyake (1982) Kunihiko Fukushima and Sei Miyake. Neocognitron: A self-organizing neural network model for a mechanism of visual pattern recognition. In Competition and Cooperation in Neural Nets, pages 267–285. Springer, 1982.
  • Gainza et al. (2020) Pablo Gainza, Freyr Sverrisson, Frederico Monti, Emanuele Rodola, D Boscaini, MM Bronstein, and BE Correia. Deciphering interaction fingerprints from protein molecular surfaces using geometric deep learning. Nature Methods, 17(2):184–192, 2020.
  • Gama et al. (2019) Fernando Gama, Alejandro Ribeiro, and Joan Bruna. Diffusion scattering transforms on graphs. In ICLR, 2019.
  • Gama et al. (2020) Fernando Gama, Joan Bruna, and Alejandro Ribeiro. Stability properties of graph neural networks. IEEE Trans. Signal Processing, 68:5680–5695, 2020.
  • Gao et al. (2019) Hongchang Gao, Jian Pei, and Heng Huang. Conditional random field enhanced graph convolutional neural networks. In KDD, 2019.
  • García-Durán and Niepert (2017) Alberto García-Durán and Mathias Niepert. Learning graph representations with embedding propagation. arXiv:1710.03059, 2017.
  • Gatys et al. (2015) Leon A Gatys, Alexander S Ecker, and Matthias Bethge. Texture synthesis using convolutional neural networks. arXiv preprint arXiv:1505.07376, 2015.
  • Gaudelet et al. (2020) Thomas Gaudelet, Ben Day, Arian R Jamasb, Jyothish Soman, Cristian Regep, Gertrude Liu, Jeremy BR Hayter, Richard Vickers, Charles Roberts, Jian Tang, et al. Utilising graph machine learning within drug discovery and development. arXiv:2012.05716, 2020.
  • Gers and Schmidhuber (2000) Felix A Gers and Jürgen Schmidhuber. Recurrent nets that time and count. In IJCNN, 2000.
  • Gilmer et al. (2017) Justin Gilmer, Samuel S Schoenholz, Patrick F Riley, Oriol Vinyals, and George E Dahl. Neural message passing for quantum chemistry. arXiv:1704.01212, 2017.
  • Girshick (2015) Ross Girshick. Fast R-CNN. In CVPR, 2015.
  • Girshick et al. (2014) Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.
  • Gligorijevic et al. (2020) Vladimir Gligorijevic, P Douglas Renfrew, Tomasz Kosciolek, Julia Koehler Leman, Daniel Berenberg, Tommi Vatanen, Chris Chandler, Bryn C Taylor, Ian M Fisk, Hera Vlamakis, et al. Structure-based function prediction using graph convolutional networks. bioRxiv:786236, 2020.
  • Goller and Kuchler (1996) Christoph Goller and Andreas Kuchler. Learning task-dependent distributed representations by backpropagation through structure. In ICNN, 1996.
  • Goodfellow et al. (2014) Ian J Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial networks. arXiv:1406.2661, 2014.
  • Gori et al. (2005) Marco Gori, Gabriele Monfardini, and Franco Scarselli. A new model for learning in graph domains. In IJCNN, 2005.
  • Graves (2013) Alex Graves. Generating sequences with recurrent neural networks. arXiv:1308.0850, 2013.
  • Graves et al. (2014) Alex Graves, Greg Wayne, and Ivo Danihelka. Neural turing machines. arXiv:1410.5401, 2014.
  • Graves et al. (2016) Alex Graves, Greg Wayne, Malcolm Reynolds, Tim Harley, Ivo Danihelka, Agnieszka Grabska-Barwińska, Sergio Gómez Colmenarejo, Edward Grefenstette, Tiago Ramalho, John Agapiou, et al. Hybrid computing using a neural network with dynamic external memory. Nature, 538(7626):471–476, 2016.
  • Grill et al. (2020) Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre H Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, et al. Bootstrap your own latent: A new approach to self-supervised learning. arXiv:2006.07733, 2020.
  • Gromov (1981) Mikhael Gromov. Structures métriques pour les variétés riemanniennes. Cedic, 1981.
  • Grover and Leskovec (2016) Aditya Grover and Jure Leskovec. node2vec: Scalable feature learning for networks. In KDD, 2016.
  • Gunasekar et al. (2017) Suriya Gunasekar, Blake E Woodworth, Srinadh Bhojanapalli, Behnam Neyshabur, and Nati Srebro. Implicit regularization in matrix factorization. In NIPS, 2017.
  • Gysi et al. (2020) Deisy Morselli Gysi, Ítalo Do Valle, Marinka Zitnik, Asher Ameli, Xiao Gan, Onur Varol, Helia Sanchez, Rebecca Marlene Baron, Dina Ghiassian, Joseph Loscalzo, et al. Network medicine framework for identifying drug repurposing opportunities for COVID-19. arXiv:2004.07229, 2020.
  • Hamilton et al. (2017) Will Hamilton, Zhitao Ying, and Jure Leskovec. Inductive representation learning on large graphs. In NIPS, 2017.
  • Hao et al. (2020) Junheng Hao, Tong Zhao, Jin Li, Xin Luna Dong, Christos Faloutsos, Yizhou Sun, and Wei Wang. P-companion: A principled framework for diversified complementary product recommendation. In Information & Knowledge Management, 2020.
  • Hardt and Ma (2016) Moritz Hardt and Tengyu Ma. Identity matters in deep learning. arXiv:1611.04231, 2016.
  • He et al. (2016) Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016.
  • He et al. (2017) Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick. Mask r-cnn. In CVPR, 2017.
  • Helvétius (1759) Claude Adrien Helvétius. De l’esprit. Durand, 1759.
  • Hjelm et al. (2019) R Devon Hjelm, Alex Fedorov, Samuel Lavoie-Marchildon, Karan Grewal, Phil Bachman, Adam Trischler, and Yoshua Bengio. Learning deep representations by mutual information estimation and maximization. In ICLR, 2019.
  • Hochreiter (1991) Sepp Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. PhD thesis, Technische Universität München, 1991.
  • Hochreiter and Schmidhuber (1997) Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural Computation, 9(8):1735–1780, 1997.
  • Hornik (1991) Kurt Hornik. Approximation capabilities of multilayer feedforward networks. Neural Networks, 4(2):251–257, 1991.
  • Hoshen (2017) Yedid Hoshen. Vain: Attentional multi-agent predictive modeling. arXiv:1706.06122, 2017.
  • Hu et al. (2020) Weihua Hu, Bowen Liu, Joseph Gomes, Marinka Zitnik, Percy Liang, Vijay Pande, and Jure Leskovec. Strategies for pre-training graph neural networks. In ICLR, 2020.
  • Hubel and Wiesel (1959) David H Hubel and Torsten N Wiesel. Receptive fields of single neurones in the cat’s striate cortex. J. Physiology, 148(3):574–591, 1959.
  • Hutchinson et al. (2020) Michael Hutchinson, Charline Le Lan, Sheheryar Zaidi, Emilien Dupont, Yee Whye Teh, and Hyunjik Kim. LieTransformer: Equivariant self-attention for Lie groups. arXiv:2012.10885, 2020.
  • Ioffe and Szegedy (2015) Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015.
  • Iqbal (2018) Haris Iqbal. Harisiqbal88/plotneuralnet v1.0.0, December 2018. URL https://doi.org/10.5281/zenodo.2526396.
  • Itani and Thanou (2021) Sarah Itani and Dorina Thanou. Combining anatomical and functional networks for neuropathology identification: A case study on autism spectrum disorder. Medical Image Analysis, 69:101986, 2021.
  • Jin et al. (2018) Wengong Jin, Regina Barzilay, and Tommi Jaakkola. Junction tree variational autoencoder for molecular graph generation. In ICML, 2018.
  • Jin et al. (2020) Wengong Jin, Regina Barzilay, and Tommi Jaakkola. Hierarchical generation of molecular graphs using structural motifs. In ICML, 2020.
  • Johnson et al. (2016) Alistair EW Johnson, Tom J Pollard, Lu Shen, H Lehman Li-Wei, Mengling Feng, Mohammad Ghassemi, Benjamin Moody, Peter Szolovits, Leo Anthony Celi, and Roger G Mark. Mimic-iii, a freely accessible critical care database. Scientific Data, 3(1):1–9, 2016.
  • Jordan (1997) Michael I Jordan. Serial order: A parallel distributed processing approach. In Advances in Psychology, volume 121, pages 471–495. 1997.
  • Joshi (2020) Chaitanya Joshi. Transformers are graph neural networks. The Gradient, 2020.
  • Jozefowicz et al. (2015) Rafal Jozefowicz, Wojciech Zaremba, and Ilya Sutskever. An empirical exploration of recurrent network architectures. In ICML, 2015.
  • Kaiser and Sutskever (2015) Łukasz Kaiser and Ilya Sutskever. Neural GPUs learn algorithms. arXiv:1511.08228, 2015.
  • Kalchbrenner et al. (2016) Nal Kalchbrenner, Lasse Espeholt, Karen Simonyan, Aaron van den Oord, Alex Graves, and Koray Kavukcuoglu. Neural machine translation in linear time. arXiv:1610.10099, 2016.
  • Kalchbrenner et al. (2018) Nal Kalchbrenner, Erich Elsen, Karen Simonyan, Seb Noury, Norman Casagrande, Edward Lockhart, Florian Stimberg, Aaron van den Oord, Sander Dieleman, and Koray Kavukcuoglu. Efficient neural audio synthesis. In ICML, 2018.
  • Kanatani (2012) Ken-Ichi Kanatani. Group-theoretical methods in image understanding. Springer, 2012.
  • Karni and Gotsman (2000) Zachi Karni and Craig Gotsman. Spectral compression of mesh geometry. In Proc. Computer Graphics and Interactive Techniques, 2000.
  • Kazi et al. (2020) Anees Kazi, Luca Cosmo, Nassir Navab, and Michael Bronstein. Differentiable graph module (DGM) graph convolutional networks. arXiv:2002.04999, 2020.
  • Kenlay et al. (2021) Henry Kenlay, Dorina Thanou, and Xiaowen Dong. Interpretable stability bounds for spectral graph filters. arXiv:2102.09587, 2021.
  • Kimmel and Sethian (1998) Ron Kimmel and James A Sethian. Computing geodesic paths on manifolds. PNAS, 95(15):8431–8435, 1998.
  • Kingma and Ba (2014) Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv:1412.6980, 2014.
  • Kingma and Welling (2013) Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv:1312.6114, 2013.
  • Kipf et al. (2018) Thomas Kipf, Ethan Fetaya, Kuan-Chieh Wang, Max Welling, and Richard Zemel. Neural relational inference for interacting systems. In ICML, 2018.
  • Kipf and Welling (2016a) Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. arXiv:1609.02907, 2016a.
  • Kipf and Welling (2016b) Thomas N Kipf and Max Welling. Variational graph auto-encoders. arXiv:1611.07308, 2016b.
  • Kireev (1995) Dmitry B Kireev. Chemnet: a novel neural network based method for graph/property mapping. J. Chemical Information and Computer Sciences, 35(2):175–180, 1995.
  • Klicpera et al. (2020) Johannes Klicpera, Janek Groß, and Stephan Günnemann. Directional message passing for molecular graphs. arXiv:2003.03123, 2020.
  • Kokkinos et al. (2012) Iasonas Kokkinos, Michael M Bronstein, Roee Litman, and Alex M Bronstein. Intrinsic shape context descriptors for deformable shapes. In CVPR, 2012.
  • Komiske et al. (2019) Patrick T Komiske, Eric M Metodiev, and Jesse Thaler. Energy flow networks: deep sets for particle jets. Journal of High Energy Physics, 2019(1):121, 2019.
  • Kostrikov et al. (2018) Ilya Kostrikov, Zhongshi Jiang, Daniele Panozzo, Denis Zorin, and Joan Bruna. Surface networks. In CVPR, 2018.
  • Krizhevsky et al. (2012) Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012.
  • Ktena et al. (2017) Sofia Ira Ktena, Sarah Parisot, Enzo Ferrante, Martin Rajchl, Matthew Lee, Ben Glocker, and Daniel Rueckert. Distance metric learning using graph convolutional networks: Application to functional brain networks. In MICCAI, 2017.
  • Kulon et al. (2020) Dominik Kulon, Riza Alp Guler, Iasonas Kokkinos, Michael M Bronstein, and Stefanos Zafeiriou. Weakly-supervised mesh-convolutional hand reconstruction in the wild. In CVPR, 2020.
  • Kurach et al. (2015) Karol Kurach, Marcin Andrychowicz, and Ilya Sutskever. Neural random-access machines. arXiv:1511.06392, 2015.
  • LeCun et al. (1998) Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. Gradient-based learning applied to document recognition. Proc. IEEE, 86(11):2278–2324, 1998.
  • Lenz (1990) Reiner Lenz. Group theoretical methods in image processing. Springer, 1990.
  • Leshno et al. (1993) Moshe Leshno, Vladimir Ya Lin, Allan Pinkus, and Shimon Schocken. Multilayer feedforward networks with a nonpolynomial activation function can approximate any function. Neural Networks, 6(6):861–867, 1993.
  • Levie et al. (2018) Ron Levie, Federico Monti, Xavier Bresson, and Michael M Bronstein. Cayleynets: Graph convolutional neural networks with complex rational spectral filters. IEEE Trans. Signal Processing, 67(1):97–109, 2018.
  • Levie et al. (2019) Ron Levie, Elvin Isufi, and Gitta Kutyniok. On the transferability of spectral graph filters. In Sampling Theory and Applications, 2019.
  • Lévy (2006) Bruno Lévy. Laplace-Beltrami eigenfunctions towards an algorithm that “understands” geometry. In Proc. Shape Modeling and Applications, 2006.
  • Li et al. (2015) Yujia Li, Daniel Tarlow, Marc Brockschmidt, and Richard Zemel. Gated graph sequence neural networks. arXiv:1511.05493, 2015.
  • Litany et al. (2018) Or Litany, Alex Bronstein, Michael Bronstein, and Ameesh Makadia. Deformable shape completion with graph convolutional autoencoders. In CVPR, 2018.
  • Litman and Bronstein (2013) Roee Litman and Alexander M Bronstein. Learning spectral descriptors for deformable shape correspondence. Trans. PAMI, 36(1):171–180, 2013.
  • Liu et al. (2017) Hsueh-Ti Derek Liu, Alec Jacobson, and Keenan Crane. A Dirac operator for extrinsic shape analysis. Computer Graphics Forum, 36(5):139–149, 2017.
  • Lyu and Simoncelli (2008) Siwei Lyu and Eero P Simoncelli. Nonlinear image representation using divisive normalization. In CVPR, 2008.
  • MacNeal (1949) Richard H MacNeal. The solution of partial differential equations by means of electrical networks. PhD thesis, California Institute of Technology, 1949.
  • Madsen and Johansen (2020) Andreas Madsen and Alexander Rosenberg Johansen. Neural arithmetic units. arXiv:2001.05016, 2020.
  • Mahdi et al. (2020) Soha Sadat Mahdi, Nele Nauwelaers, Philip Joris, Giorgos Bouritsas, Shunwang Gong, Sergiy Bokhnyak, Susan Walsh, Mark Shriver, Michael Bronstein, and Peter Claes. 3d facial matching by spiral convolutional metric learning and a biometric fusion-net of demographic properties. arXiv:2009.04746, 2020.
  • Maiorov (1999) VE Maiorov. On best approximation by ridge functions. Journal of Approximation Theory, 99(1):68–94, 1999.
  • Makadia et al. (2007) Ameesh Makadia, Christopher Geyer, and Kostas Daniilidis. Correspondence-free structure from motion. IJCV, 75(3):311–327, 2007.
  • Mallat (1999) Stéphane Mallat. A wavelet tour of signal processing. Elsevier, 1999.
  • Mallat (2012) Stéphane Mallat. Group invariant scattering. Communications on Pure and Applied Mathematics, 65(10):1331–1398, 2012.
  • Malone et al. (2018) Brandon Malone, Alberto Garcia-Duran, and Mathias Niepert. Learning representations of missing data for predicting patient outcomes. arXiv:1811.04752, 2018.
  • Maron et al. (2018) Haggai Maron, Heli Ben-Hamu, Nadav Shamir, and Yaron Lipman. Invariant and equivariant graph networks. arXiv:1812.09902, 2018.
  • Maron et al. (2019) Haggai Maron, Heli Ben-Hamu, Hadar Serviansky, and Yaron Lipman. Provably powerful graph networks. arXiv:1905.11136, 2019.
  • Marquis (2009) Jean-Pierre Marquis. Category theory and klein’s erlangen program. In From a Geometrical Point of View, pages 9–40. Springer, 2009.
  • Masci et al. (2015) Jonathan Masci, Davide Boscaini, Michael Bronstein, and Pierre Vandergheynst. Geodesic convolutional neural networks on Riemannian manifolds. In CVPR Workshops, 2015.
  • Maxwell (1865) James Clerk Maxwell. A dynamical theory of the electromagnetic field. Philosophical Transactions of the Royal Society of London, (155):459–512, 1865.
  • McEwen et al. (2021) Jason D McEwen, Christopher GR Wallis, and Augustine N Mavor-Parker. Scattering networks on the sphere for scalable and rotationally equivariant spherical cnns. arXiv:2102.02828, 2021.
  • Mei et al. (2021) Song Mei, Theodor Misiakiewicz, and Andrea Montanari. Learning with invariances in random features and kernel models. arXiv:2102.13219, 2021.
  • Melzi et al. (2019) Simone Melzi, Riccardo Spezialetti, Federico Tombari, Michael M Bronstein, Luigi Di Stefano, and Emanuele Rodolà. Gframes: Gradient-based local reference frame for 3d shape matching. In CVPR, 2019.
  • Mémoli and Sapiro (2005) Facundo Mémoli and Guillermo Sapiro. A theoretical and computational framework for isometry invariant recognition of point cloud data. Foundations of Computational Mathematics, 5(3):313–347, 2005.
  • Merkwirth and Lengauer (2005) Christian Merkwirth and Thomas Lengauer. Automatic generation of complementary descriptors with molecular graph networks. J. Chemical Information and Modeling, 45(5):1159–1168, 2005.
  • Meyer et al. (2003) Mark Meyer, Mathieu Desbrun, Peter Schröder, and Alan H Barr. Discrete differential-geometry operators for triangulated 2-manifolds. In Visualization and Mathematics III, pages 35–57. 2003.
  • Micheli (2009) Alessio Micheli. Neural network for graphs: A contextual constructive approach. IEEE Trans. Neural Networks, 20(3):498–511, 2009.
  • Miller et al. (2016) Karla L Miller, Fidel Alfaro-Almagro, Neal K Bangerter, David L Thomas, Essa Yacoub, Junqian Xu, Andreas J Bartsch, Saad Jbabdi, Stamatios N Sotiropoulos, Jesper LR Andersson, et al. Multimodal population brain imaging in the uk biobank prospective epidemiological study. Nature Neuroscience, 19(11):1523–1536, 2016.
  • Minsky and Papert (2017) Marvin Minsky and Seymour A Papert. Perceptrons: An introduction to computational geometry. MIT Press, 2017.
  • Mitrovic et al. (2020) Jovana Mitrovic, Brian McWilliams, Jacob Walker, Lars Buesing, and Charles Blundell. Representation learning via invariant causal mechanisms. arXiv:2010.07922, 2020.
  • Mnih et al. (2015) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski, et al. Human-level control through deep reinforcement learning. Nature, 518(7540):529–533, 2015.
  • Mnih et al. (2016) Volodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu. Asynchronous methods for deep reinforcement learning. In ICML, 2016.
  • Monti et al. (2017) Federico Monti, Davide Boscaini, Jonathan Masci, Emanuele Rodola, Jan Svoboda, and Michael M Bronstein. Geometric deep learning on graphs and manifolds using mixture model cnns. In CVPR, 2017.
  • Monti et al. (2019) Federico Monti, Fabrizio Frasca, Davide Eynard, Damon Mannion, and Michael M Bronstein. Fake news detection on social media using geometric deep learning. arXiv:1902.06673, 2019.
  • Morris et al. (2017) Christopher Morris, Kristian Kersting, and Petra Mutzel. Glocalized Weisfeiler-Lehman graph kernels: Global-local feature maps of graphs. In ICDM, 2017.
  • Morris et al. (2019) Christopher Morris, Martin Ritzert, Matthias Fey, William L Hamilton, Jan Eric Lenssen, Gaurav Rattan, and Martin Grohe. Weisfeiler and leman go neural: Higher-order graph neural networks. In AAAI, 2019.
  • Morris et al. (2020) Christopher Morris, Gaurav Rattan, and Petra Mutzel. Weisfeiler and Leman go sparse: Towards scalable higher-order graph embeddings. In NeurIPS, 2020.
  • Mozer (1989) Michael C Mozer. A focused back-propagation algorithm for temporal pattern recognition. Complex Systems, 3(4):349–381, 1989.
  • Murphy et al. (2013) Kevin Murphy, Yair Weiss, and Michael I Jordan. Loopy belief propagation for approximate inference: An empirical study. arXiv:1301.6725, 2013.
  • Murphy et al. (2019) Ryan Murphy, Balasubramaniam Srinivasan, Vinayak Rao, and Bruno Ribeiro. Relational pooling for graph representations. In ICML, 2019.
  • Murphy et al. (2018) Ryan L Murphy, Balasubramaniam Srinivasan, Vinayak Rao, and Bruno Ribeiro. Janossy pooling: Learning deep permutation-invariant functions for variable-size inputs. arXiv:1811.01900, 2018.
  • Nair and Hinton (2010) Vinod Nair and Geoffrey E Hinton. Rectified linear units improve restricted boltzmann machines. In ICML, 2010.
  • Nash (1956) John Nash. The imbedding problem for Riemannian manifolds. Annals of Mathematics, 63(1):20––63, 1956.
  • Neyshabur et al. (2015) Behnam Neyshabur, Ryota Tomioka, and Nathan Srebro. Norm-based capacity control in neural networks. In COLT, 2015.
  • Noether (1918) Emmy Noether. Invariante variationsprobleme. In König Gesellsch. d. Wiss. zu Göttingen, Math-Phys. Klassc, pages 235–257. 1918.
  • Ovsjanikov et al. (2008) Maks Ovsjanikov, Jian Sun, and Leonidas Guibas. Global intrinsic symmetries of shapes. Computer Graphics Forum, 27(5):1341–1348, 2008.
  • Ovsjanikov et al. (2012) Maks Ovsjanikov, Mirela Ben-Chen, Justin Solomon, Adrian Butscher, and Leonidas Guibas. Functional maps: a flexible representation of maps between shapes. ACM Trans. Graphics, 31(4):1–11, 2012.
  • Pal et al. (2020) Aditya Pal, Chantat Eksombatchai, Yitong Zhou, Bo Zhao, Charles Rosenberg, and Jure Leskovec. Pinnersage: Multi-modal user embedding framework for recommendations at pinterest. In KDD, 2020.
  • Parisot et al. (2018) Sarah Parisot, Sofia Ira Ktena, Enzo Ferrante, Matthew Lee, Ricardo Guerrero, Ben Glocker, and Daniel Rueckert. Disease prediction using graph convolutional networks: application to autism spectrum disorder and alzheimer’s disease. Medical Image Analysis, 48:117–130, 2018.
  • Pascanu et al. (2013) Razvan Pascanu, Tomas Mikolov, and Yoshua Bengio. On the difficulty of training recurrent neural networks. In ICML, 2013.
  • Patanè (2020) Giuseppe Patanè. Fourier-based and rational graph filters for spectral processing. arXiv:2011.04055, 2020.
  • Pearl (2014) Judea Pearl. Probabilistic reasoning in intelligent systems: networks of plausible inference. Elsevier, 2014.
  • Penrose (2005) Roger Penrose. The road to reality: A complete guide to the laws of the universe. Random House, 2005.
  • Perozzi et al. (2014) Bryan Perozzi, Rami Al-Rfou, and Steven Skiena. Deepwalk: Online learning of social representations. In KDD, 2014.
  • Pfaff et al. (2020) Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, and Peter W Battaglia. Learning mesh-based simulation with graph networks. arXiv:2010.03409, 2020.
  • Pineda (1988) Fernando J Pineda. Generalization of back propagation to recurrent and higher order neural networks. In NIPS, 1988.
  • Pinkall and Polthier (1993) Ulrich Pinkall and Konrad Polthier. Computing discrete minimal surfaces and their conjugates. Experimental Mathematics, 2(1):15–36, 1993.
  • Pinkus (1999) Allan Pinkus. Approximation theory of the mlp model in neural networks. Acta Numerica, 8:143–195, 1999.
  • Pollard et al. (2018) Tom J Pollard, Alistair EW Johnson, Jesse D Raffa, Leo A Celi, Roger G Mark, and Omar Badawi. The eicu collaborative research database, a freely available multi-center database for critical care research. Scientific Data, 5(1):1–13, 2018.
  • Portilla and Simoncelli (2000) Javier Portilla and Eero P Simoncelli. A parametric texture model based on joint statistics of complex wavelet coefficients. International journal of computer vision, 40(1):49–70, 2000.
  • Qi et al. (2017) Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas. Pointnet: Deep learning on point sets for 3d classification and segmentation. In CVPR, 2017.
  • Qiu et al. (2018) Jiezhong Qiu, Yuxiao Dong, Hao Ma, Jian Li, Kuansan Wang, and Jie Tang. Network embedding as matrix factorization: Unifying deepwalk, line, pte, and node2vec. In WSDM, 2018.
  • Qu and Gouskos (2019) H Qu and L Gouskos. Particlenet: jet tagging via particle clouds. arXiv:1902.08570, 2019.
  • Qu et al. (2019) Meng Qu, Yoshua Bengio, and Jian Tang. GMNN: Graph Markov neural networks. In ICML, 2019.
  • Radford et al. (2018) Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. Improving language understanding by generative pre-training. 2018.
  • Radford et al. (2019) Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.
  • Ranjan et al. (2018) Anurag Ranjan, Timo Bolkart, Soubhik Sanyal, and Michael J Black. Generating 3D faces using convolutional mesh autoencoders. In ECCV, 2018.
  • Raviv et al. (2007) Dan Raviv, Alexander M Bronstein, Michael M Bronstein, and Ron Kimmel. Symmetries of non-rigid shapes. In ICCV, 2007.
  • Razin and Cohen (2020) Noam Razin and Nadav Cohen. Implicit regularization in deep learning may not be explainable by norms. arXiv:2005.06398, 2020.
  • Reed and De Freitas (2015) Scott Reed and Nando De Freitas. Neural programmer-interpreters. arXiv:1511.06279, 2015.
  • Ren et al. (2015) Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv:1506.01497, 2015.
  • Rezende and Mohamed (2015) Danilo Rezende and Shakir Mohamed. Variational inference with normalizing flows. In ICML, 2015.
  • Riesenhuber and Poggio (1999) Maximilian Riesenhuber and Tomaso Poggio. Hierarchical models of object recognition in cortex. Nature neuroscience, 2(11):1019–1025, 1999.
  • Robinson and Fallside (1987) AJ Robinson and Frank Fallside. The utility driven dynamic error propagation network. University of Cambridge, 1987.
  • Rocheteau et al. (2020) Emma Rocheteau, Pietro Liò, and Stephanie Hyland. Temporal pointwise convolutional networks for length of stay prediction in the intensive care unit. arXiv:2007.09483, 2020.
  • Rocheteau et al. (2021) Emma Rocheteau, Catherine Tong, Petar Veličković, Nicholas Lane, and Pietro Liò. Predicting patient outcomes with graph representation learning. arXiv:2101.03940, 2021.
  • Ronneberger et al. (2015) Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI, 2015.
  • Rosenblatt (1958) Frank Rosenblatt. The perceptron: a probabilistic model for information storage and organization in the brain. Psychological Review, 65(6):386, 1958.
  • Rossi et al. (2020) Emanuele Rossi, Ben Chamberlain, Fabrizio Frasca, Davide Eynard, Federico Monti, and Michael Bronstein. Temporal graph networks for deep learning on dynamic graphs. arXiv:2006.10637, 2020.
  • Russakovsky et al. (2015) Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al. Imagenet large scale visual recognition challenge. IJCV, 115(3):211–252, 2015.
  • Rustamov et al. (2013) Raif M Rustamov, Maks Ovsjanikov, Omri Azencot, Mirela Ben-Chen, Frédéric Chazal, and Leonidas Guibas. Map-based exploration of intrinsic shape differences and variability. ACM Trans. Graphics, 32(4):1–12, 2013.
  • Salimans and Kingma (2016) Tim Salimans and Diederik P Kingma. Weight normalization: A simple reparameterization to accelerate training of deep neural networks. arXiv:1602.07868, 2016.
  • Sanchez-Gonzalez et al. (2019) Alvaro Sanchez-Gonzalez, Victor Bapst, Kyle Cranmer, and Peter Battaglia. Hamiltonian graph networks with ODE integrators. arXiv:1909.12790, 2019.
  • Sanchez-Gonzalez et al. (2020) Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, and Peter Battaglia. Learning to simulate complex physics with graph networks. In ICML, 2020.
  • Sandryhaila and Moura (2013) Aliaksei Sandryhaila and José MF Moura. Discrete signal processing on graphs. IEEE Trans. Signal Processing, 61(7):1644–1656, 2013.
  • Santoro et al. (2017) Adam Santoro, David Raposo, David G Barrett, Mateusz Malinowski, Razvan Pascanu, Peter Battaglia, and Timothy Lillicrap. A simple neural network module for relational reasoning. In NIPS, 2017.
  • Santoro et al. (2018) Adam Santoro, Ryan Faulkner, David Raposo, Jack Rae, Mike Chrzanowski, Theophane Weber, Daan Wierstra, Oriol Vinyals, Razvan Pascanu, and Timothy Lillicrap. Relational recurrent neural networks. arXiv:1806.01822, 2018.
  • Santurkar et al. (2018) Shibani Santurkar, Dimitris Tsipras, Andrew Ilyas, and Aleksander Madry. How does batch normalization help optimization? arXiv:1805.11604, 2018.
  • Sato et al. (2020) Ryoma Sato, Makoto Yamada, and Hisashi Kashima. Random features strengthen graph neural networks. arXiv:2002.03155, 2020.
  • Satorras et al. (2021) Victor Garcia Satorras, Emiel Hoogeboom, and Max Welling. E(n) equivariant graph neural networks. arXiv:2102.09844, 2021.
  • Scaife and Porter (2021) Anna MM Scaife and Fiona Porter. Fanaroff-Riley classification of radio galaxies using group-equivariant convolutional neural networks. Monthly Notices of the Royal Astronomical Society, 2021.
  • Scarselli et al. (2008) Franco Scarselli, Marco Gori, Ah Chung Tsoi, Markus Hagenbuchner, and Gabriele Monfardini. The graph neural network model. IEEE Trans. Neural Networks, 20(1):61–80, 2008.
  • Schrittwieser et al. (2020) Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, et al. Mastering atari, go, chess and shogi by planning with a learned model. Nature, 588(7839):604–609, 2020.
  • Schulman et al. (2017) John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. arXiv:1707.06347, 2017.
  • Schütt et al. (2018) Kristof T Schütt, Huziel E Sauceda, P-J Kindermans, Alexandre Tkatchenko, and K-R Müller. Schnet–a deep learning architecture for molecules and materials. The Journal of Chemical Physics, 148(24):241722, 2018.
  • Sejnowski et al. (1986) Terrence J Sejnowski, Paul K Kienker, and Geoffrey E Hinton. Learning symmetry groups with hidden units: Beyond the perceptron. Physica D: Nonlinear Phenomena, 22(1-3):260–275, 1986.
  • Senior et al. (2020) Andrew W Senior, Richard Evans, John Jumper, James Kirkpatrick, Laurent Sifre, Tim Green, Chongli Qin, Augustin Žídek, Alexander WR Nelson, Alex Bridgland, et al. Improved protein structure prediction using potentials from deep learning. Nature, 577(7792):706–710, 2020.
  • Serre et al. (2007) Thomas Serre, Aude Oliva, and Tomaso Poggio. A feedforward architecture accounts for rapid categorization. Proceedings of the national academy of sciences, 104(15):6424–6429, 2007.
  • Shamir and Vardi (2020) Ohad Shamir and Gal Vardi. Implicit regularization in relu networks with the square loss. arXiv:2012.05156, 2020.
  • Shawe-Taylor (1989) John Shawe-Taylor. Building symmetries into feedforward networks. In ICANN, 1989.
  • Shawe-Taylor (1993) John Shawe-Taylor. Symmetries and discriminability in feedforward network architectures. IEEE Trans. Neural Networks, 4(5):816–826, 1993.
  • Shervashidze et al. (2011) Nino Shervashidze, Pascal Schweitzer, Erik Jan Van Leeuwen, Kurt Mehlhorn, and Karsten M Borgwardt. Weisfeiler-lehman graph kernels. JMLR, 12(9), 2011.
  • Shlomi et al. (2020) Jonathan Shlomi, Peter Battaglia, and Jean-Roch Vlimant. Graph neural networks in particle physics. Machine Learning: Science and Technology, 2(2):021001, 2020.
  • Shuman et al. (2013) David I Shuman, Sunil K Narang, Pascal Frossard, Antonio Ortega, and Pierre Vandergheynst. The emerging field of signal processing on graphs: Extending high-dimensional data analysis to networks and other irregular domains. IEEE Signal Processing Magazine, 30(3):83–98, 2013.
  • Siegelmann and Sontag (1995) Hava T Siegelmann and Eduardo D Sontag. On the computational power of neural nets. Journal of Computer and System Sciences, 50(1):132–150, 1995.
  • Silver et al. (2016) David Silver, Aja Huang, Chris J Maddison, Arthur Guez, Laurent Sifre, George Van Den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, et al. Mastering the game of go with deep neural networks and tree search. Nature, 529(7587):484–489, 2016.
  • Silver et al. (2017) David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, et al. Mastering the game of go without human knowledge. Nature, 550(7676):354–359, 2017.
  • Simoncelli and Freeman (1995) Eero P Simoncelli and William T Freeman. The steerable pyramid: A flexible architecture for multi-scale derivative computation. In Proceedings., International Conference on Image Processing, volume 3, pages 444–447. IEEE, 1995.
  • Simonyan and Zisserman (2014) Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556, 2014.
  • Smola et al. (2007) Alex Smola, Arthur Gretton, Le Song, and Bernhard Schölkopf. A Hilbert space embedding for distributions. In ALT, 2007.
  • Spalević et al. (2020) Stefan Spalević, Petar Veličković, Jovana Kovačević, and Mladen Nikolić. Hierachial protein function prediction with tail-GNNs. arXiv:2007.12804, 2020.
  • Sperduti (1994) Alessandro Sperduti. Encoding labeled graphs by labeling RAAM. In NIPS, 1994.
  • Sperduti and Starita (1997) Alessandro Sperduti and Antonina Starita. Supervised neural networks for the classification of structures. IEEE Trans. Neural Networks, 8(3):714–735, 1997.
  • Springenberg et al. (2014) Jost Tobias Springenberg, Alexey Dosovitskiy, Thomas Brox, and Martin Riedmiller. Striving for simplicity: The all convolutional net. arXiv:1412.6806, 2014.
  • Srinivasan and Ribeiro (2019) Balasubramaniam Srinivasan and Bruno Ribeiro. On the equivalence between positional node embeddings and structural graph representations. arXiv:1910.00452, 2019.
  • Srivastava et al. (2014) Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: a simple way to prevent neural networks from overfitting. JMLR, 15(1):1929–1958, 2014.
  • Srivastava et al. (2015) Rupesh Kumar Srivastava, Klaus Greff, and Jürgen Schmidhuber. Highway networks. arXiv:1505.00387, 2015.
  • Stachenfeld et al. (2020) Kimberly Stachenfeld, Jonathan Godwin, and Peter Battaglia. Graph networks with spectral message passing. arXiv:2101.00079, 2020.
  • Stokes et al. (2020) Jonathan M Stokes, Kevin Yang, Kyle Swanson, Wengong Jin, Andres Cubillos-Ruiz, Nina M Donghia, Craig R MacNair, Shawn French, Lindsey A Carfrae, Zohar Bloom-Ackerman, et al. A deep learning approach to antibiotic discovery. Cell, 180(4):688–702, 2020.
  • Strathmann et al. (2021) Heiko Strathmann, Mohammadamin Barekatain, Charles Blundell, and Petar Veličković. Persistent message passing. arXiv:2103.01043, 2021.
  • Straumann (1996) Norbert Straumann. Early history of gauge theories and weak interactions. hep-ph/9609230, 1996.
  • Sun et al. (2009) Jian Sun, Maks Ovsjanikov, and Leonidas Guibas. A concise and provably informative multi-scale signature based on heat diffusion. Computer Graphics Forum, 28(5):1383–1392, 2009.
  • Sutskever et al. (2014) Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Sequence to sequence learning with neural networks. arXiv:1409.3215, 2014.
  • Szegedy et al. (2015) Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. In CVPR, 2015.
  • Tallec and Ollivier (2018) Corentin Tallec and Yann Ollivier. Can recurrent neural networks warp time? arXiv:1804.11188, 2018.
  • Tang et al. (2020) Hao Tang, Zhiao Huang, Jiayuan Gu, Bao-Liang Lu, and Hao Su. Towards scale-invariant graph-related problem solving by iterative homogeneous gnns. In NeurIPS, 2020.
  • Tang et al. (2015) Jian Tang, Meng Qu, Mingzhe Wang, Ming Zhang, Jun Yan, and Qiaozhu Mei. Line: Large-scale information network embedding. In WWW, 2015.
  • Taubin et al. (1996) Gabriel Taubin, Tong Zhang, and Gene Golub. Optimal surface smoothing as filter design. In ECCV, 1996.
  • Thakoor et al. (2021) Shantanu Thakoor, Corentin Tallec, Mohammad Gheshlaghi Azar, Rémi Munos, Petar Veličković, and Michal Valko. Bootstrapped representation learning on graphs. arXiv:2102.06514, 2021.
  • Thomas et al. (2018) Nathaniel Thomas, Tess Smidt, Steven Kearnes, Lusann Yang, Li Li, Kai Kohlhoff, and Patrick Riley. Tensor field networks: Rotation-and translation-equivariant neural networks for 3D point clouds. arXiv:1802.08219, 2018.
  • Tobies (2019) Renate Tobies. Felix Klein—-mathematician, academic organizer, educational reformer. In The Legacy of Felix Klein, pages 5–21. Springer, 2019.
  • Trask et al. (2018) Andrew Trask, Felix Hill, Scott Reed, Jack Rae, Chris Dyer, and Phil Blunsom. Neural arithmetic logic units. arXiv:1808.00508, 2018.
  • Tromp and Farnebäck (2006) John Tromp and Gunnar Farnebäck. Combinatorics of go. In International Conference on Computers and Games, 2006.
  • Tsybakov (2008) Alexandre B Tsybakov. Introduction to nonparametric estimation. Springer, 2008.
  • Ulyanov et al. (2016) Dmitry Ulyanov, Andrea Vedaldi, and Victor Lempitsky. Instance normalization: The missing ingredient for fast stylization. arXiv:1607.08022, 2016.
  • van den Oord et al. (2016a) Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu. Wavenet: A generative model for raw audio. arXiv:1609.03499, 2016a.
  • van den Oord et al. (2016b) Aaron van den Oord, Nal Kalchbrenner, and Koray Kavukcuoglu. Pixel recurrent neural networks. In ICML, 2016b.
  • Vaswani et al. (2017) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, 2017.
  • Veličković et al. (2018) Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Liò, and Yoshua Bengio. Graph Attention Networks. ICLR, 2018.
  • Veličković et al. (2019) Petar Veličković, Rex Ying, Matilde Padovano, Raia Hadsell, and Charles Blundell. Neural execution of graph algorithms. arXiv:1910.10593, 2019.
  • Veličković et al. (2020) Petar Veličković, Lars Buesing, Matthew C Overlan, Razvan Pascanu, Oriol Vinyals, and Charles Blundell. Pointer graph networks. arXiv:2006.06380, 2020.
  • Veličković et al. (2019) Petar Veličković, Wiliam Fedus, William L. Hamilton, Pietro Liò, Yoshua Bengio, and R Devon Hjelm. Deep Graph Infomax. In ICLR, 2019.
  • Veselkov et al. (2019) Kirill Veselkov, Guadalupe Gonzalez, Shahad Aljifri, Dieter Galea, Reza Mirnezami, Jozef Youssef, Michael Bronstein, and Ivan Laponogov. Hyperfoods: Machine intelligent mapping of cancer-beating molecules in foods. Scientific Reports, 9(1):1–12, 2019.
  • Vinyals et al. (2015) Oriol Vinyals, Meire Fortunato, and Navdeep Jaitly. Pointer networks. arXiv:1506.03134, 2015.
  • Vinyals et al. (2016) Oriol Vinyals, Samy Bengio, and Manjunath Kudlur. Order matters: Sequence to sequence for sets. In ICLR, 2016.
  • von Luxburg and Bousquet (2004) Ulrike von Luxburg and Olivier Bousquet. Distance-based classification with lipschitz functions. JMLR, 5:669–695, 2004.
  • Wainwright and Jordan (2008) Martin J Wainwright and Michael Irwin Jordan. Graphical models, exponential families, and variational inference. Now Publishers Inc, 2008.
  • Wang and Solomon (2019) Yu Wang and Justin Solomon. Intrinsic and extrinsic operators for shape analysis. In Handbook of Numerical Analysis, volume 20, pages 41–115. Elsevier, 2019.
  • Wang et al. (2018) Yu Wang, Mirela Ben-Chen, Iosif Polterovich, and Justin Solomon. Steklov spectral geometry for extrinsic shape analysis. ACM Trans. Graphics, 38(1):1–21, 2018.
  • Wang et al. (2019a) Yu Wang, Vladimir Kim, Michael Bronstein, and Justin Solomon. Learning geometric operators on meshes. In ICLR Workshops, 2019a.
  • Wang et al. (2019b) Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E Sarma, Michael M Bronstein, and Justin M Solomon. Dynamic graph CNN for learning on point clouds. ACM Trans. Graphics, 38(5):1–12, 2019b.
  • Wardetzky (2008) Max Wardetzky. Convergence of the cotangent formula: An overview. Discrete Differential Geometry, pages 275–286, 2008.
  • Wardetzky et al. (2007) Max Wardetzky, Saurabh Mathur, Felix Kälberer, and Eitan Grinspun. Discrete Laplace operators: no free lunch. In Symposium on Geometry Processing, 2007.
  • Weiler et al. (2018) Maurice Weiler, Mario Geiger, Max Welling, Wouter Boomsma, and Taco Cohen. 3d steerable cnns: Learning rotationally equivariant features in volumetric data. arXiv:1807.02547, 2018.
  • Weisfeiler and Leman (1968) Boris Weisfeiler and Andrei Leman. The reduction of a graph to canonical form and the algebra which appears therein. NTI Series, 2(9):12–16, 1968.
  • Werbos (1988) Paul J Werbos. Generalization of backpropagation with application to a recurrent gas market model. Neural Networks, 1(4):339–356, 1988.
  • Weyl (1929) Hermann Weyl. Elektron und gravitation. i. Zeitschrift für Physik, 56(5-6):330–352, 1929.
  • Weyl (2015) Hermann Weyl. Symmetry. Princeton University Press, 2015.
  • Winkels and Cohen (2019) Marysia Winkels and Taco S Cohen. Pulmonary nodule detection in ct scans with equivariant cnns. Medical Image Analysis, 55:15–26, 2019.
  • Wood and Shawe-Taylor (1996) Jeffrey Wood and John Shawe-Taylor. Representation theory and invariant neural networks. Discrete Applied Mathematics, 69(1-2):33–60, 1996.
  • Wu et al. (2019) Felix Wu, Amauri Souza, Tianyi Zhang, Christopher Fifty, Tao Yu, and Kilian Weinberger. Simplifying graph convolutional networks. In ICML, 2019.
  • Wu and He (2018) Yuxin Wu and Kaiming He. Group normalization. In ECCV, 2018.
  • Xu et al. (2020a) Da Xu, Chuanwei Ruan, Evren Korpeoglu, Sushant Kumar, and Kannan Achan. Inductive representation learning on temporal graphs. arXiv:2002.07962, 2020a.
  • Xu et al. (2018) Keyulu Xu, Weihua Hu, Jure Leskovec, and Stefanie Jegelka. How powerful are graph neural networks? arXiv:1810.00826, 2018.
  • Xu et al. (2019) Keyulu Xu, Jingling Li, Mozhi Zhang, Simon S Du, Ken-ichi Kawarabayashi, and Stefanie Jegelka. What can neural networks reason about? arXiv:1905.13211, 2019.
  • Xu et al. (2020b) Keyulu Xu, Jingling Li, Mozhi Zhang, Simon S Du, Ken-ichi Kawarabayashi, and Stefanie Jegelka. How neural networks extrapolate: From feedforward to graph neural networks. arXiv:2009.11848, 2020b.
  • Yan et al. (2020) Yujun Yan, Kevin Swersky, Danai Koutra, Parthasarathy Ranganathan, and Milad Heshemi. Neural execution engines: Learning to execute subroutines. arXiv:2006.08084, 2020.
  • Yang and Mills (1954) Chen-Ning Yang and Robert L Mills. Conservation of isotopic spin and isotopic gauge invariance. Physical Review, 96(1):191, 1954.
  • Yang et al. (2016) Zhilin Yang, William Cohen, and Ruslan Salakhudinov. Revisiting semi-supervised learning with graph embeddings. In ICML, 2016.
  • Yedidia et al. (2001) Jonathan S Yedidia, William T Freeman, and Yair Weiss. Bethe free energy, kikuchi approximations, and belief propagation algorithms. NIPS, 2001.
  • Ying et al. (2018) Rex Ying, Ruining He, Kaifeng Chen, Pong Eksombatchai, William L Hamilton, and Jure Leskovec. Graph convolutional neural networks for web-scale recommender systems. In KDD, 2018.
  • You et al. (2019) Jiaxuan You, Rex Ying, and Jure Leskovec. Position-aware graph neural networks. In ICML, 2019.
  • Zaheer et al. (2017) Manzil Zaheer, Satwik Kottur, Siamak Ravanbakhsh, Barnabas Poczos, Russ R Salakhutdinov, and Alexander J Smola. Deep sets. In NIPS, 2017.
  • Zaremba and Sutskever (2014) Wojciech Zaremba and Ilya Sutskever. Learning to execute. arXiv:1410.4615, 2014.
  • Zeng et al. (2012) Wei Zeng, Ren Guo, Feng Luo, and Xianfeng Gu. Discrete heat kernel determines discrete riemannian metric. Graphical Models, 74(4):121–129, 2012.
  • Zhang et al. (2018) Jiani Zhang, Xingjian Shi, Junyuan Xie, Hao Ma, Irwin King, and Dit-Yan Yeung. Gaan: Gated attention networks for learning on large and spatiotemporal graphs. arXiv:1803.07294, 2018.
  • Zhang et al. (2020) Yuyu Zhang, Xinshi Chen, Yuan Yang, Arun Ramamurthy, Bo Li, Yuan Qi, and Le Song. Efficient probabilistic logic reasoning with graph neural networks. arXiv:2001.11850, 2020.
  • Zhu et al. (2019) Rong Zhu, Kun Zhao, Hongxia Yang, Wei Lin, Chang Zhou, Baole Ai, Yong Li, and Jingren Zhou. Aligraph: A comprehensive graph neural network platform. arXiv:1902.08730, 2019.
  • Zhu and Razavian (2019) Weicheng Zhu and Narges Razavian. Variationally regularized graph-based representation learning for electronic health records. arXiv:1912.03761, 2019.
  • Zhu et al. (2020) Yanqiao Zhu, Yichen Xu, Feng Yu, Qiang Liu, Shu Wu, and Liang Wang. Deep graph contrastive representation learning. arXiv:2006.04131, 2020.
  • Zitnik et al. (2018) Marinka Zitnik, Monica Agrawal, and Jure Leskovec. Modeling polypharmacy side effects with graph convolutional networks. Bioinformatics, 34(13):i457–i466, 2018.